Як працюють пошукові системи на базі ШІ

Портрет Ryan Law

Автор: Ryan Law

Директор із контент-маркетингу в Ahrefs

Що насправді відбувається, коли ви просите ChatGPT порекомендувати найкращі повнорозмірні навушники для тренувань?

Як пошукові системи ШІ генерують відповіді та обирають рекомендації продуктів? Чим вони відрізняються від традиційних пошукових систем на кшталт Google (і де вони перетинаються)?

І найголовніше: як допомогти вашому сайту, бренду й продуктам з’являтися у видачі?

Дякуємо Gianluca Fiorelli та Mark Williams-Cook за рецензування й внесок у цей розділ.


Частина 1

Що таке пошукові системи на базі ШІ?

Пошукові системи на базі ШІ — це системи запитань і відповідей, які використовують великі мовні моделі (LLM) для пошуку інформації та генерування відповідей.

Є кілька ключових відмінностей між традиційними пошуковими системами та пошуковими системами на базі ШІ (хоча ці відмінності зменшуються, оскільки традиційні пошукові системи додають дедалі більше функцій ШІ):

  • Замість разових запитів користувачі можуть ставити уточнювальні запитання і продовжувати розмову.
  • Замість ранжованого списку посилань пошукові системи на основі ШІ надають прямі відповіді та рекомендації (і ці відповіді можуть регулярно змінюватися).
  • Замість того щоб спрямовувати людей із пошуку відвідати ваш сайт, користувачі отримують відповіді на свої запити безпосередньо в чат-інтерфейсі (у результаті — менше кліків назад на ваш сайт).

Ось як виглядає типовий інтерфейс пошуку на базі ШІ — подібний до того, що ви побачили б у ChatGPT, Claude або AI Mode:

Схема інтерфейсу пошуку на основі ШІ, що показує запит, повідомлення про прив’язку до джерел, відповідь, згадку та цитування
  • Розмовний запит: запитання користувача.
  • Повідомлення про заземлення: повідомлення, яке показує, що LLM вирішила знайти додаткову інформацію для використання у своїй відповіді.
  • Відповідь: Відповідь, згенерована ШІ на користувацький запит.
  • Згадка: Сутність (наприклад, ваш бренд або продукт), згадана безпосередньо в тексті відповіді.
  • Цитування: URL-адреси джерел, використані для формування відповіді; зазвичай наведені наприкінці.

Щоб допомогти вам з’являтися в подібних відповідях, спершу потрібно зрозуміти ключові процеси, завдяки яким працюють пошукові системи на базі ШІ.


Частина 2

Як працює навчання

LLM навчають на величезних обсягах контенту. Фактично вони «прочитали» всю Вікіпедію, весь набір даних Common Crawl, усі Google Books і багато мільйонів та мільйонів сторінок вебконтенту.

Ці навчальні дані допомагають сформувати для LLM його «розуміння» світу. Якщо ваша компанія з виробництва навушників багато разів згадується в його навчальних даних — у релевантному контексті та поруч із позитивними характеристиками («найкраще співвідношення ціни й якості», «чудово для спортзалу» тощо) — є висока ймовірність, що вашу компанію згадуватимуть у відповідях LLM на запити, пов’язані з навушниками.

Чи знали ви?

Цей процес навчання складніший, ніж описано тут. Є етапи попереднього навчання, щоб прибрати HTML, видалити персональні дані, вилучити слова з блоклиста та відфільтрувати дані під конкретні мови. Є також етапи післянавчання, щоб навчити мовну модель поводитися більше як корисний чат-асистент (а не просто як прогнозувач наступного токена). Щоб дізнатися більше, подивіться відео Андрея Карпаті Deep Dive into LLMs like ChatGPT.

Діаграма, що ілюструє, як великі мовні моделі навчаються на контенті веб-масштабу
Лапки

Саме тут SEO на основі сутностей стає критично важливим. Якщо ваш бренд стабільно з’являється в графах знань, правильно структурований за допомогою розмітки Schema та співзгадується з релевантними сутностями у високоякісному контенті по всьому інтернету, ви формуєте сильніший «сигнал сутності» в навчальних даних.

Gianluca Fiorelli portrait

Gianluca Fiorelli, Консультант зі стратегічного та міжнародного SEO/пошуку на основі ШІ

Що важливо, LLM мають багато особливостей:

  • Вони ймовірнісні: ви можете використати той самий запит і щоразу отримувати різні відповіді. Ця ймовірнісна природа означає, що ви не можете "оптимізувати під запит" так само, як оптимізуєте під ключове слово. Натомість мисліть розподілами: яка ймовірність того, що ваш бренд з'явиться у відповідях на 100 схожих запитів? Саме тому відстежувати середню видимість за багатьма запитами краще, ніж зациклюватися на кількох.
  • Їхні знання мають межу за датою: за замовчуванням знання LLM обмежені тим, що було в наборі даних на момент навчання конкретної моделі. Кожну модель навчають один раз на зрізі даних станом на певну дату. Нові моделі з більш актуальною межею знань випускають періодично (історично — приблизно раз на пів року).
  • Вони галюцинують: можуть упевнено стверджувати те, що не відповідає дійсності. LLM генерують текст, передбачаючи, які слова ймовірно будуть наступними, а не перевіряючи факти. Хоч їх і навчають бути корисними та точними, у них немає вбудованого механізму перевірки фактів — саме тому ґраундинг через вебпошук такий важливий.
Лапки

Поширена хибна думка — що LLM отримують «оновлення знань», як програмні патчі. Насправді кожну модель навчають один раз на фіксованому наборі даних. Коли ви бачите реліз нової моделі зі свіжішою датою зрізу знань, це повністю нова модель, навчена з нуля, а не оновлення наявної.

Gianluca Fiorelli portrait

Gianluca Fiorelli, Консультант зі стратегічного та міжнародного SEO/пошуку на основі ШІ

Пошукова система, яка галюцинує й ділиться застарілою інформацією, навряд чи буде корисною. Саме тому LLM долають частину цих обмежень завдяки процесу, відомому як ґраундинг.


Частина 3

Як працюють ґраундинг і RAG

LLM можуть перевіряти й покращувати свої відповіді двома способами: за допомогою інструментів (як-от калькуляторів чи інших API даних) або шляхом отримання додаткової інформації із зовнішніх джерел. Другий процес технічно називається Retrieval-Augmented Generation (RAG).

Коли користувач вводить запитання, LLM запитує сама себе: «Чи я вже знаю відповідь, чи мені слід отримати додаткову інформацію?» Якщо LLM може з високою впевненістю передбачити наступний токен (наприклад, для запитань, що майже не змінюються, як-от «що роблять червоні кров’яні клітини?»), найімовірніше, вона відповість, спираючись на базові знання. За низької впевненості (для запитань, які частіше змінюються, як-от «яка найкраща бюджетна кавомолка?») вона може скористатися інструментом пошуку, щоб знайти релевантну інформацію в інших джерелах в інтернеті.

LLM донавчають так, щоб вони розпізнавали типи запитів, яким може знадобитися додаткова інформація, зокрема:

  • Теми поза межами навчального охоплення моделей: «Які внутрішні фактори ранжування використовує Keywords Explorer від Ahrefs?»
  • Теми, що потребують свіжої або чутливої до часу інформації: «Яким було найсвіжіше базове оновлення Google і коли воно було запущене?»
  • Теми, що прямо просять виконати вебпошук: «Пошукай в інтернеті популярні тактики лінкбілдингу у 2026 році».
  • Запити, що просять джерела та докази: «Надайте джерела, які підтверджують, що Google використовує сигнали залученості користувачів у своєму алгоритмі.»

Деякі моделі LLM також із високою ймовірністю запускають додаткові пошуки (наприклад, моделі «глибинного дослідження» спеціально налаштовані на виконання кількох RAG-пошуків).

Діаграма, що показує, як працюють заземлення та Retrieval-Augmented Generation (RAG)

Цей процес пошуку «опорної істини» через RAG (його часто називають «grounding») дає кілька переваг. LLM може підвищити фактологічну точність і зменшити галюцинації, звіряючи свої відповіді зі сторонніми джерелами. Вона може знаходити й поширювати актуальну інформацію, навіть якщо її навчальні дані відносно застарілі. Вона може надавати детальніші, комплексніші відповіді та забезпечувати кращу прозорість і атрибуцію для всього, чим ділиться.

Пошукові системи ШІ виконують це заземлення за допомогою процесу, відомого як query fan-out.


Частина 4

Як працює розгалуження запиту

Що важливо, розгалуження запиту пояснює, чому традиційне SEO є критично важливим для видимості в ШІ.

ШІ-асистенти на кшталт ChatGPT, Gemini та Perplexity використовують пошукові індекси, як-от Google, Bing і Brave, щоб отримувати актуальну інформацію.

Вибір пошукового провайдера має значення, адже в кожного з них різні алгоритми ранжування, індекси та охоплення: зробивши свій бренд помітнішим у Пошуку Google, ви, ймовірно, підвищите видимість і в режимі ШІ більше, ніж у ChatGPT, який значно більше покладається на Bing.

пошукова система ШІПошукові індекси, що використовуються для ґраундингу
ChatGPT logoChatGPT
Bing, logoBing,
Google logoGoogle
Claude logoClaude
Brave logoBrave
Gemini logoGemini
Google logoGoogle
Copilot logoCopilot
Bing logoBing
Perplexity logoPerplexity
In-house logoIn-house
AI Mode logoAI Mode
Google logoGoogle
AI Overviews logoAI Overviews
Google logoGoogle

Коли запускається вебпошук, LLM запитує релевантні результати зі свого пошукового індексу. Пошуковий індекс повертає список результатів, а LLM обирає найрелевантніші сторінки для сканування, оцінюючи, зокрема, назву сторінки, вміст показаного фрагмента сторінки та її актуальність (наскільки нещодавно її опублікували).

Чому SEO є критично важливим для пошуку на базі ШІ

Це варто повторити: традиційні пошукові системи на кшталт Google і Bing відіграють ключову роль у тому, щоб допомагати пошуковим системам на основі ШІ вирішувати, який контент згадувати та на який посилатися у своїх відповідях.

Інакше кажучи, високі позиції в традиційному пошуку підвищать вашу видимість у пошуку на основі ШІ.

Але що саме шукає LLM?

LLM використовують процес, що називається розгалуженням запитів. Багато запитів, введених у ChatGPT та інші пошукові системи на базі ШІ, є надзвичайно довгими, розмовними й часто повністю унікальними. Пошук у Google за цими точними запитами не завжди повертає корисний контент.

Тож замість того, щоб виконувати вебпошук за точним запитом користувача…

"Я планую 6-місячну контент-стратегію для B2B SaaS-компанії середнього розміру, яка продає продукт аналітики брендам електронної комерції. Компанія…"

Макет довгого, детального користувацького запиту, введеного в інтерфейс ШІ-чату

…LLM використовують цей початковий запит, щоб згенерувати серію коротших, пов’язаних запитів і таким чином допомогти отримати релевантну інформацію.

Лапки

Ці розгалужені запити також генерує велика мовна модель, а отже вони недетерміновані: можуть регулярно змінюватися, навіть для одного й того самого пошуку.

Mark Williams-Cook portrait

Mark Williams-Cook, Засновник, AlsoAsked

Цей процес має бути знайомим фахівцям із SEO: ці пов’язані запити дуже схожі на довгі ключові слова, піднаміри та запитання з блоку People Also Ask:

  • Поширені фреймворки контент-стратегії B2B SaaS
  • Приклади контенту TOFU проти BOFU для SaaS
  • Оновлення контенту та найкращі практики внутрішніх посилань
  • Метрики зростання демо, що зумовлене контентом

Насправді лише 12% посилань, процитованих ChatGPT, Gemini та Copilot, входять до топ-10 результатів Google для початкового запиту користувача. Однак це не означає, що традиційне ранжування неважливе. Пошукові системи на базі ШІ знаходять контент, генеруючи кілька пошукових запитів — і ці розгалужені запити часто є більш традиційними, орієнтованими на ключові слова пошуками, де ваша наявна SEO-робота має величезне значення.

Діаграма, що ілюструє, як пошукова система на базі ШІ розгалужує один запит користувача на багато пов’язаних запитів
Лапки

Розгалуження запиту звільняє від необхідності вгадувати, які розмовні запити люди використовуватимуть. Натомість оптимізуйтеся під декомпозовані запити — тобто семантичні компоненти, які LLM природно генеруватимуть. Це дуже схоже на традиційний аналіз ключових слів: [тема] + [уточнення], запити на порівняння, запити на визначення та контент із «найкращими практиками». Ваші наявні SEO-дослідження, ймовірно, вже охоплюють цей простір розгалуження.

Gianluca Fiorelli portrait

Gianluca Fiorelli, Консультант зі стратегічного та міжнародного SEO/пошуку на основі ШІ


Частина 5

Як працюють отримання даних, поділ на фрагменти та синтез відповіді

Коли LLM знаходить релевантні сторінки в пошуковому індексі, вона не читає їх повністю. Натомість сторінки розбиваються на невеликі текстові «чанки», а модель надає пріоритет (і інколи розширює) тим фрагментам, які здаються найбільш релевантними запиту.

Зазвичай кожен із цих фрагментів містить від кількох сотень до кількох тисяч слів — це невелика частка більшості вебсторінок. LLM також працює в межах суворих обмежень контекстного вікна: він може обробити лише обмежений обсяг тексту, зокрема запит користувача, усі отримані фрагменти та власну відповідь. Це означає, що він має дуже вибірково визначати, який контент отримувати й включати.

Ось приклад:

Вміст повної сторінки«Заземлення — це робочий процес, у якому модель звертається до зовнішніх джерел, витягує релевантні факти та використовує ці витяги, щоб зменшити галюцинації й підвищити актуальність.… Потім вона сканує кілька джерел, порівнює інформацію та синтезує відповідь замість того, щоб дослівно копіювати текст. Цей крок синтезу допомагає уникнути надмірної залежності від одного-єдиного джерела».
Сніпет«Пояснює, як асистенти використовують вебпошук, щоб знаходити зовнішні джерела та зменшувати галюцинації, заземлюючи відповіді на отриманих фактах.»
Розгортання (рядки 1–2)«Заземлення — це робочий процес, у якому модель звертається до зовнішніх джерел, витягує релевантні факти та використовує ці витяги, щоб зменшити галюцинації й підвищити актуальність. Перед тим як ініціювати вебпошук, модель оцінює, чи потребує запит актуальної або такої, що піддається перевірці, інформації».
Розгортання (рядки 33–34)«Потім вона сканує кілька джерел, порівнює інформацію та синтезує відповідь замість того, щоб дослівно копіювати текст. Цей крок синтезу допомагає уникнути надмірної залежності від одного-єдиного джерела».

Зробіть так, щоб LLM було легко зрозуміти ваш контент

Це важливо: коли пошукові системи ШІ отримують ваш контент з інтернету, вони можуть бачити лише часткові уривки, а не всю сторінку. Щоб максимізувати шанси бути процитованими у відповіді LLM, релевантність і цінність вашої сторінки мають бути легко зрозумілими для LLM навіть без доступу до всієї сторінки.

Потім пошукова система на базі ШІ інтегрує цей текст у процес формування відповіді.

Необроблений вебконтент ґраундується у відповідь моделі: фрагменти тексту або даних, витягнуті на попередньому кроці, додаються до контексту моделі — по суті, це означає: «Ось трохи контексту з вебу, що може бути корисним; тепер дай відповідь на запитання користувача, використовуючи цю інформацію».


Частина 6

Як обирають джерела для цитування

Далі модель генерує відповідь, поєднуючи свої вбудовані знання з отриманим контентом, і ділиться нею з користувачем. Відповідь зазвичай містить цитування: клікабельні URL-адреси з посиланнями на джерела, використані під час процесу заземлення.

Не кожна сторінка, яку знаходить пошукова система на базі ШІ, отримає цитування у фінальній відповіді. Модель обирає, які джерела цитувати, зважаючи на кілька чинників:

  • Релевантність: наскільки безпосередньо знайдений контент підтримав конкретні твердження у відповіді.
  • Свіжість: Наскільки актуальним виглядає джерело.
  • Різноманітність: наскільки різноманітними є джерела цитування (при цьому пошукові системи ШІ часто віддають перевагу цитуванню кількох різних джерел, а не багаторазовому цитуванню одного й того самого).

Це означає, що навіть якщо ваш контент буде знайдено й прочитано, немає гарантії, що ви отримаєте видиме цитування; контент має бути визнаний безпосередньо релевантним до конкретного твердження у відповіді.


Частина 7

Як працює персоналізація

Це основа того, як працюють пошукові системи ШІ, але є додатковий рівень складності: персоналізація.

ChatGPT та інші пошукові системи на основі ШІ можуть персоналізувати результати для окремих користувачів — тобто один і той самий запит може згенерувати різні результати для різних людей. На персоналізацію можуть впливати кілька чинників, зокрема:

  • Поточний контекст розмови: попередні повідомлення в цьому ж чаті впливатимуть на відповідь на поточний запит. Згадайте, що для вас важлива «зносостійкість» у спорядженні для хайкінгу — і можна очікувати, що ChatGPT врахує цей критерій у пошуку, коли ви пізніше в чаті попросите «рекомендації рюкзаків».
  • Пам’ять: багато LLM мають функцію пам’яті, яка дає змогу системі зберігати певні факти або вподобання між чатами. Наприклад, коли пам’ять увімкнено, ChatGPT робитиме висновки й запам’ятовуватиме деталі, якими ви поділилися (як-от ваше ім’я чи інтереси), і використовуватиме їх у майбутніх розмовах, щоб персоналізувати відповіді.
  • Місцезнаходження, час, дата: багато пошукових систем на базі ШІ можуть робити висновки про вас і підлаштовувати відповіді на основі цієї інформації — від використання вашої IP-адреси для приблизного визначення локації (для запитів на кшталт «бранч поруч зі мною») до дати й часу («список речей для кемпінгу» узимку може порадити 4-сезонний намет, а влітку — 3-сезонний).
  • Системні запити: будь-які конкретні вподобання, зазначені в системному повідомленні, впливатимуть на ваші розмови (додавання фрази «пам’ятай, що я веган» до системного запиту впливатиме на відповіді на запити на кшталт «ідеї корисного сніданку»).
Лапки

Ось аналогія, яка допоможе зрозуміти системні запити. Уявіть, що ви граєте у футбол: «навчальні дані» — це всі тренування протягом років, довготривала м’язова пам’ять. Системний запит — це те, що тренер каже вам просто перед виходом на поле. Це потужна короткострокова пам’ять, яка з більшою ймовірністю вплине на результат.

Mark Williams-Cook portrait

Mark Williams-Cook, Засновник, AlsoAsked

Діаграма сигналів персоналізації, що впливають на відповіді пошуку на базі ШІ

Тому варто відстежувати середню видимість вашого бренду та сайту з часом і в розрізі багатьох запитів, а не зациклюватися на відповіді на якийсь один запит.


Підсумки

Кожна пошукова система на основі ШІ (від ChatGPT до Perplexity і Google AI Mode) дещо відрізняється, але базові процеси залишаються однаковими. І що важливо для фахівців із SEO та маркетологів: традиційні пошукові системи на кшталт Google і Bing забезпечують значну частину інфраструктури, потрібної для роботи пошукових систем на основі ШІ. Оптимізація під пошук на основі ШІ значною мірою спирається на найкращі практики традиційного SEO.

Портрет Ryan Law
Посібник відRyan Law

Раян Лоу — директор із контент-маркетингу в Ahrefs із понад 13-річним досвідом роботи письменником, контент-стратегом, керівником команд, директором із маркетингу, віцепрезидентом, CMO та засновником агентства. Він допоміг десяткам компаній, серед яких Google, Zapier, GoDaddy, Clearbit та Algolia, покращити контент-маркетинг і SEO. Також він є письменником-романістом та автором двох курсів із контент-маркетингу.

Опануйте SEO крок за кроком

/01

Як працюють пошукові системи

Перш ніж почати вивчати SEO, потрібно зрозуміти, як працюють пошукові системи.

/02

Основи SEO

Дізнайтеся, як налаштувати свій вебсайт для успіху в SEO, і дізнайтеся про чотири основні аспекти SEO.

/03

Дослідження ключових слів

Відправною точкою в SEO є розуміння того, що шукають ваші цільові клієнти.

/04

SEO-контент

Дізнайтеся, як створити контент, який займає місце в пошукових системах.

/05

Внутрішня оптимізація сторінки

Саме тут ви оптимізуєте список сторінок, що допоможуть пошуковим системам їх зрозуміти.

/06

Лінкбілдінг

Посилання допомагають пошуковим системам знаходити нові сторінки й оцінювати їхню «авторитетність». Без посилань складно досягти високих позицій за конкурентними запитами.

/07

Технічне SEO

Важливо переконатися, що немає технічних помилок, які заважають Google отримати доступ до вашого вебсайту та правильно розуміти його.

/08

Локальне SEO

Дізнайтеся, як покращити свою видимість у локальних результатах пошуку й залучити більше клієнтів із вашого району.

/09

Що означає ШІ для SEO

Сьогодні неможливо говорити про SEO, не згадуючи генеративний ШІ.

/10

Як працюють пошукові системи на базі ШІ

Дізнайтеся, як саме пошукові системи на основі ШІ на кшталт ChatGPT генерують відповіді та обирають, які бренди й продукти згадувати.