Перейти к основному содержанию
ChatGPT чаще всего цитирует начало материалов — исследование

ChatGPT чаще всего цитирует начало материалов — исследование

ChatGPT чаще всего цитирует начало материалов — исследование

ChatGPT преимущественно использует верхние части страниц при выборе цитат. К такому выводу пришел специалист Growth Advisor Кевин Индиг (Kevin Indig), проанализировав 1,2 млн ответов ИИ и 18 012 подтвержденных цитирований.

ChatGPT чаще всего цитирует начало материалов — исследование

Почему это важно

Традиционная поисковая оптимизация поощряла глубину и отложенную подачу ключевых выводов. В случае с ИИ приоритет получает немедленная классификация — четкие сущности и прямые ответы в начале материала. Если ключевая информация не вынесена вверх, вероятность ее появления в ответах ИИ снижается.

Данные исследования

Команда Индига выявила устойчивый паттерн распределения цитирований, который подтвердился в рандомизированных выборках. По его словам, результаты статистически неоспоримы.

Распределение цитат по структуре страницы:

  • 44,2% цитирований приходятся на первые 30% контента.
  • 31,1% — на среднюю часть (30–70%).
  • 24,7% — на последнюю треть, при этом ближе к футеру наблюдается резкое снижение.

На уровне абзацев ИИ анализирует текст глубже:

  • 53% цитирований приходятся на середину абзацев.
  • 24,5% — на первые предложения.
  • 22,5% — на последние предложения.

Основной вывод

Ключевые тезисы следует размещать в начале материала. Внутри абзацев приоритетом остается ясность и плотность информации, а не искусственное усиление первых предложений.

Причины такого поведения моделей

Крупные языковые модели обучаются на журналистских и академических текстах, построенных по принципу «bottom line up front» — сначала вывод, затем детали. Вероятно, модель сильнее учитывает информацию, заданную в начале текста, и интерпретирует последующие данные с опорой на этот первоначальный контекст.

Современные модели способны обрабатывать большие окна токенов, однако они оптимизируют процесс анализа, быстро формируя контекст.

Какой контент цитируется чаще

Индиг выделил пять характеристик материалов, которые чаще попадают в ответы ChatGPT:

1. Определяющая формулировка.
Цитируемые фрагменты почти в два раза чаще содержат четкие определения («X is», «X refers to»). Прямые конструкции «подлежащее — сказуемое — дополнение» показывают лучшие результаты по сравнению с размытыми формулировками.

2. Разговорная структура в формате Q&A.
Цитируемый контент в два раза чаще содержит вопросительные конструкции. 78,4% цитирований, связанных с вопросами, приходятся на заголовки. ChatGPT часто воспринимает H2 как запрос, а следующий абзац — как ответ.

3. Высокая плотность сущностей.
В обычном англоязычном тексте доля имен собственных составляет 5–8%. В наиболее цитируемых материалах этот показатель достигал в среднем 20,6%. Конкретные бренды, инструменты и имена снижают неоднозначность и «якорят» ответ.

4. Сбалансированная тональность.
Цитируемые тексты концентрируются вокруг показателя субъективности 0,47 — между сухим фактом и эмоциональным мнением. Предпочтительный стиль напоминает аналитический комментарий: факт плюс интерпретация.

5. Ясность делового уровня.
Средний показатель индекса удобочитаемости у успешных материалов составил 16 против 19,1 у менее цитируемых. Более короткие предложения и простая структура эффективнее академически перегруженного стиля.

Методология

Индиг проанализировал 3 млн ответов ChatGPT и 30 млн цитирований, выделив 18 012 подтвержденных ссылок для детального анализа источников.

Команда использовала числовые векторные представления предложений для сопоставления ответов с конкретными предложениями-источниками, после чего оценивала их положение на странице и лингвистические характеристики — наличие определений, плотность сущностей и тональность.

Итог

Нарративный формат «Полное руководство» может демонстрировать худшие результаты при попадании в ответы ИИ. Более эффективным оказывается структурированный формат в стиле брифинга.

По мнению Индига, это создает так называемый «налог на ясность»: авторам необходимо выносить определения, сущности и выводы в начало текста, а не оставлять их на финальные разделы.

Источник