AI検索エンジンの仕組み

Ryan Law のプロフィール画像

Ryan Law 作成

Ahrefs コンテンツマーケティングディレクター

ChatGPTに「ワークアウトに最適なオーバーイヤーヘッドフォンをおすすめして」と頼むと、実際には何が起きているのでしょうか?

AI 検索エンジンはどのように回答を生成し、商品のおすすめを選ぶのでしょうか?Google のような従来の検索エンジンとはどう違い(また、どこが共通して)いるのでしょうか?

そして重要なのは、あなたのウェブサイト、ブランド、商品を表示させるにはどうすればよいのでしょうか?

この章のレビューと執筆への貢献に対し、Gianluca FiorelliMark Williams-Cookに感謝します。


パート 1

AI検索エンジンとは何ですか?

AI検索エンジンとは、大規模言語モデル(LLM)を用いて情報を見つけ、回答を生成する質問応答システムです。

従来の検索エンジンとAI検索エンジンには、いくつかの重要な違いがあります(ただし、従来の検索エンジンがAI機能をより多く取り入れるにつれて、こうした違いは小さくなっています):

  • 単発の検索クエリを入力するのではなく、ユーザーは追加の質問をして会話を続けられます。
  • リンクを順位付けした一覧を返す代わりに、AI検索エンジンは直接的な回答やおすすめを提供します(そして、これらの回答は定期的に変わり得ます)。
  • 検索ユーザーをあなたのWebサイトへ誘導する代わりに、ユーザーはチャットインターフェース上で直接クエリへの回答を得られます(結果としてWebサイトへのクリック数が減少します)。

こちらは、ChatGPT、Claude、またはAI Modeで見かけるものに似た、典型的なAI検索インターフェースの例です。

プロンプト、グラウンディングメッセージ、レスポンス、言及、引用を表示したAI検索インターフェースの図
  • 会話形式のプロンプト:ユーザーの質問。
  • グラウンディングメッセージ: LLM が、回答に追加情報を使うために検索する判断をしたことを示すメッセージ。
  • レスポンス: ユーザーのプロンプトに対してAIが生成した回答。
  • 言及: レスポンステキスト内で、(あなたのブランドや商品などの)エンティティが文中に言及されていること。
  • 引用:回答生成に使用したソースURL。通常は末尾に記載されます。

このような回答に表示されるためには、まずAI検索エンジンを動かしている中核的なプロセスを理解する必要があります。


パート 2

トレーニングの仕組み

LLMは膨大な量のコンテンツで学習されています。実質的に、Wikipedia全体、Common Crawl Dataset全体、Google Books全体、そして何百万ものWebページのコンテンツを「読んで」います。

この学習データによって、LLMは世界に対する「理解」を得ます。もしあなたのヘッドホン会社が、学習データの中に関連する文脈で何度も登場し、かつポジティブな表現(「コスパ最高」「ジムに最適」など)とともに語られていれば、ヘッドホン関連のプロンプトに対するLLMの回答で、あなたの会社が言及される可能性は高くなります。

ご存じですか?

この学習プロセスは、ここで説明したものよりも複雑です。HTMLを取り除き、個人を特定できる情報を削除し、ブロックリストの単語を除外し、特定の言語にデータを絞り込むための事前学習段階があります。また、言語モデルを(単なる次トークン予測器ではなく)役立つチャットアシスタントのように振る舞えるようにするための事後学習段階もあります。詳しくは、Andrej Karpathyの動画Deep Dive into LLMs like ChatGPTをご覧ください。

大規模言語モデルがウェブ規模のコンテンツで学習される仕組みを示す図
引用符

ここでエンティティベースのSEOが極めて重要になります。あなたのブランドがナレッジグラフに継続的に表示され、スキーママークアップで適切に構造化され、さらにウェブ全体の高品質コンテンツ内で関連エンティティと共起していれば、トレーニングデータにおける「エンティティシグナル」をより強固に構築できます。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 戦略・国際SEO/AI検索コンサルタント

重要なのは、LLMには多くの癖があるということです:

  • 確率的である:同じプロンプトを使っても、そのたびに異なる回答が返ってくることがあります。この確率的な性質のため、キーワードのように「プロンプトに最適化する」ことはできません。代わりに分布で考えましょう。似たようなプロンプトを100個投げたとき、あなたのブランドが登場する確率はどれくらいでしょうか。だからこそ、少数のプロンプトにこだわるより、多数のプロンプトにおける平均的な可視性を追跡するほうが有効です。
  • 知識にカットオフがある: デフォルトでは、LLMの知識は、その特定のモデルが学習したデータセットに含まれていた内容に限定されます。各モデルは、ある日付までのデータのスナップショットを使って一度だけ学習されます。より新しい知識カットオフを持つ新モデルは定期的に(これまでの傾向ではおよそ半年ごとに)リリースされます。
  • 幻覚を起こす: 事実ではないことを、もっともらしく断言することがあります。LLMは、事実を検証するのではなく、次に来そうな単語を予測することでテキストを生成します。役に立ち正確であるよう学習されていますが、組み込みのファクトチェック機構はありません。だからこそ、Web検索によるグラウンディングが非常に重要なのです。
引用符

よくある誤解として、LLM はソフトウェアのパッチのように「知識がアップデートされる」と思われがちです。しかし実際には、各モデルは固定されたデータセットで一度だけ学習されます。より新しいナレッジカットオフを持つ新モデルのリリースを見かけたとしても、それは既存モデルへの更新ではなく、ゼロから学習し直したまったく別のモデルです。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 戦略・国際SEO/AI検索コンサルタント

幻覚を起こして古い情報を共有する検索エンジンは、あまり役に立つとは言えません。そのためLLMは、グラウンディングとして知られるプロセスによって、こうした制約の一部を克服しています。


パート 3

グラウンディングとRAGの仕組み

LLMは、(電卓や他のデータAPIなどの)ツールを使う方法、または外部ソースから追加情報を取得する方法という2つのやり方で、回答を検証し改善できます。後者のプロセスは技術的にはRetrieval-Augmented Generation(RAG)として知られています。

ユーザーが質問を入力すると、LLM は自分にこう問いかけます。「答えはすでに知っているのか、それとも追加情報を取りに行くべきか?」LLM が次のトークンを高い確信度で予測できる場合(例えば「赤血球は何をする?」のように、あまり変化しない質問)は、ベース知識から回答する可能性が高いです。確信度が低い場合(例えば「安くておすすめのコーヒーグラインダーは?」のように、変化しやすい質問)は、検索ツールを使ってインターネット上の他ソースから関連情報を探せます。

LLMは、次のように追加情報があると有益になりそうなクエリタイプを認識できるようにファインチューニングされています:

  • モデルの学習範囲外のトピック: 「Ahrefsのキーワードエクスプローラーで使われている内部ランキング要因は?」
  • 鮮度や速報性が求められるトピック: 「Googleの最新のコアアップデートは何で、いつ展開されましたか?」
  • ウェブ検索を明示的に求めるトピック: 「2026年に人気のリンクビルディング施策をネットで検索して。」
  • 情報源や根拠を求めるプロンプト: 「Googleがアルゴリズムでユーザーエンゲージメントシグナルを使用していることを確認できる情報源を提示してください。」

LLMモデルの中には、追加の検索をトリガーしやすいものもあります(たとえば「ディープリサーチ」モデルは、複数回のRAG検索をトリガーするよう特別に設定されています)。

グラウンディングと検索拡張生成(RAG)の仕組みを示す図

RAGを通じてグラウンドトゥルースを見つける(「グラウンディング」と呼ばれることが多い)このプロセスには、いくつかの利点があります。LLMは、第三者ソースと照合して回答を検証することで、事実の正確性を高め、ハルシネーションを減らせます。学習データが比較的古くなっていても、最新情報を取得して共有できます。さらに、より詳細で網羅的な回答を共有でき、共有するあらゆる内容について、透明性と帰属(出典の明示)をより良く提供できます。

AI 検索エンジンは、クエリ・ファンアウトと呼ばれるプロセスでこのグラウンディングを行います。


パート 4

クエリのファンアウトの仕組み

重要なのは、クエリのファンアウトが、AIでの可視性において従来のSEOが不可欠である理由を説明している点です。

ChatGPT、Gemini、PerplexityのようなAIアシスタントは、Google、Bing、Braveといった検索インデックスを使って最新情報を取得します。

検索プロバイダーが重要なのは、それぞれランキングアルゴリズム、インデックス、カバレッジが異なるからです。Google検索でブランドの視認性を高めることは、Bingへの依存度がより高いChatGPTよりも、AIモードでの視認性向上に役立つ可能性があります。

AI 検索エンジングラウンディングに使用される検索インデックス
ChatGPT logoChatGPT
Bing, logoBing,
Google logoGoogle
Claude logoClaude
Brave logoBrave
Gemini logoGemini
Google logoGoogle
Copilot logoCopilot
Bing logoBing
Perplexity logoPerplexity
In-house logoIn-house
AI Mode logoAI Mode
Google logoGoogle
AI Overviews logoAI Overviews
Google logoGoogle

Web検索がトリガーされると、LLMは検索インデックスに関連性の高い結果を要求します。検索インデックスは結果のリストを返し、LLMはページタイトル、返されたページスニペットの内容、鮮度(公開されたのがどれくらい最近か)などの情報を評価して、クロールする最も関連性の高いページを選びます

AI検索においてSEOが重要な理由

繰り返す価値があります。GoogleやBingのような従来の検索エンジンは、AI検索エンジンが回答の中でどのコンテンツに言及し、どれを引用するかを判断するうえで、極めて重要な役割を果たしています。

言い換えると、従来の検索で上位にランクインすることが、AI検索での可視性向上につながります。

では、LLMはいったい何を検索しているのでしょうか?

LLMはクエリのファンアウトと呼ばれるプロセスを使います。ChatGPTなどのAI検索エンジンに入力されるプロンプトは、非常に長く会話形式で、しかも完全に固有であることが多いです。こうしたプロンプトをそのままGoogleで検索しても、常に有用なコンテンツが返ってくるとは限りません。

そのため、ユーザーのクエリをそのまま使ってウェブ検索を実行するのではなく…

「eコマースブランド向けに分析プロダクトを販売している中堅B2B SaaS企業のために、6か月間のコンテンツ戦略を計画しています。その企業は…」

AIチャットインターフェースに、長く詳細なユーザープロンプトが入力されているモックアップ

…LLMはその最初のプロンプトを使って、関連情報を取得しやすくするための、より短い関連クエリを連続して生成します。

引用符

こうしたファンアウト・クエリも大規模言語モデルによって生成されるため、非決定的です。同じ検索であっても、定期的に変わる可能性があります。

Mark Williams-Cook portrait

Mark Williams-Cook, 創業者(AlsoAsked)

このプロセスはSEO担当者にはおなじみでしょう。これらの関連クエリは、ロングテールキーワード、サブインテント、そして「他の人はこちらも質問(People Also Ask)」の質問と非常によく似ています:

  • B2B SaaSの代表的なコンテンツ戦略フレームワーク
  • SaaS向けTOFUとBOFUのコンテンツ例
  • コンテンツ更新と内部リンクのベストプラクティス
  • コンテンツ主導のデモ成長のための指標

実際、ChatGPT、Gemini、Copilotが引用したリンクのうち、元のユーザープロンプトに対するGoogle検索結果の上位10件に入っているのは12%のみです。しかし、だからといって従来のランキングが無関係というわけではありません。AI検索エンジンは複数の検索クエリを生成してコンテンツを取得します。そして、そのファンアウト・クエリは、あなたの既存のSEO施策が非常に重要になる、より伝統的でキーワード重視の検索であることが少なくありません。

AI検索エンジンが、1つのユーザープロンプトを多数の関連クエリへファンアウトする様子を示した図
引用符

クエリのファンアウトは、ある意味で解放的です。人々がどんな会話形式のプロンプトを使うかを推測する必要がないからです。代わりに、分解されたクエリ、つまりLLMが自然に生成する意味的コンポーネントに最適化しましょう。これらは従来のキーワードリサーチと驚くほど似ています。[topic] + [qualifier]、比較クエリ、定義クエリ、「ベストプラクティス」系コンテンツなどです。既存のSEO調査は、すでにファンアウト領域をカバーしている可能性が高いでしょう。

Gianluca Fiorelli portrait

Gianluca Fiorelli, 戦略・国際SEO/AI検索コンサルタント


パート 5

検索・チャンク化・回答の統合がどのように機能するか

LLMが検索インデックスから関連ページを取得しても、それらを全文読むわけではありません。代わりに、ページは小さなテキストの「チャンク」に分割され、モデルはクエリとの関連性が最も高そうなテキスト部分を優先します(場合によってはそこを拡張します)。

これらのチャンクは通常、それぞれ数百〜数千語程度で、ほとんどのWebページ全体から見ればごく一部にすぎません。LLMには厳格なコンテキストウィンドウの制限もあります。ユーザーのプロンプト、取得したすべてのチャンク、自身の回答を含め、処理できるテキスト量には上限があるのです。そのため、どのコンテンツを取得して取り込むかについて、非常に厳選する必要があります。

例を示します:

ページ全体のコンテンツ「グラウンディングとは、モデルが外部ソースを取得し、関連する事実を抽出し、その抽出結果を用いてハルシネーションを減らし、最新性を高めるワークフローです。…その後、複数の情報源をスキャンして情報を比較し、テキストをそのままコピーするのではなく、回答を統合して生成します。この統合のステップによって、特定の1つの情報源への過度な依存を避けることができます。」
スニペット「アシスタントがWeb検索を使って外部ソースを取得し、取得した事実に回答をグラウンディングすることでハルシネーションを減らす仕組みを解説する」
拡張(1~2行)「グラウンディングとは、モデルが外部ソースを取得し、関連する事実を抽出し、その抽出結果を用いてハルシネーションを減らし、最新性を高めるワークフローです。モデルは、ウェブ検索を開始する前に、クエリが最新情報または検証可能な情報を必要とするかどうかを評価します。」
拡張(33~34行)「その後、複数の情報源をスキャンして情報を比較し、テキストをそのままコピーするのではなく、回答を統合して生成します。この統合のステップによって、特定の1つの情報源への過度な依存を避けることができます。」

LLM がコンテンツを理解しやすい状態にする

これは重要です。AI検索エンジンがインターネット上からコンテンツを取得する際、見えるのは一部の抜粋だけで、ページ全体ではありません。LLM の回答で引用される可能性を最大化するには、ページ全体にアクセスできない場合でも、あなたのページの関連性と価値が LLM にとって理解しやすいものである必要があります。

AI検索エンジンはその後、このテキストを回答生成プロセスに統合します。

生のWebコンテンツはモデルの回答にグラウンディングされます。つまり、前のステップで抽出されたテキストやデータの断片がモデルのコンテキストに追加され、要するに、「Webから役に立つかもしれないコンテキストをいくつか示します。この情報を使ってユーザーの質問に答えてください」と言っているのと同じです。


パート 6

引用が選ばれる仕組み

そこからモデルは、自身の内在的な知識と取得したコンテンツを組み合わせて回答を生成し、ユーザーに共有します。回答には通常、引用が含まれます。これは、グラウンディングのプロセスで使用した情報源へのリンクとなる、クリック可能なURLです。

AI検索エンジンが取得したページのすべてが、最終回答で引用されるわけではありません。モデルは次のようないくつかの要因に基づいて、どの情報源を引用するかを選びます:

  • 関連性:取得したコンテンツが、回答内の特定の主張にどれだけ直接寄与したか。
  • 鮮度: 情報源がどれだけ新しいように見えるか。
  • 多様性: 引用元がどれだけ多様か(AI 検索エンジンは、同じソースを繰り返し引用するよりも、複数の異なるソースを引用することを好む傾向があります)。

つまり、コンテンツが取得されて読まれたとしても、目に見える形で引用される保証はありません。回答内の特定の主張と直接関係があると判断される必要があります。


パート 7

パーソナライゼーションの仕組み

ここまでが AI 検索エンジンの仕組みの核心ですが、もう一段階の複雑さがあります。それがパーソナライズです。

ChatGPTなどのAI検索エンジンは、個々のユーザーに合わせて結果をパーソナライズできるため、同じプロンプトでも人によって異なる結果が生成されることがあります。パーソナライズは、次のようないくつかの方法で左右されます:

  • 現在の会話コンテキスト: 同じチャット内の直前までのメッセージは、現在のプロンプトへの回答に影響します。ハイキングギアでは「耐久性」を重視すると伝えておけば、あとで同じチャットで「バックパックのおすすめ」を聞いたときに、ChatGPT が検索の条件としてその基準を含めることが期待できます。
  • メモリー: 多くのLLMには、チャットをまたいで特定の事実や好みをシステムが保持できるメモリー機能があります。たとえばメモリーを有効にすると、ChatGPTはあなたが共有した情報(名前や興味など)を推測して記憶し、今後の会話に反映して回答をパーソナライズします。
  • 場所、時間、日付: 多くのAI検索エンジンは、あなたに関する情報を推測し、それを使って回答を調整できます。たとえば、IPアドレスからおおよその場所を推定して「近くのブランチ」のようなクエリに対応したり、日付や時間帯を考慮したりします(「キャンプの持ち物リスト」なら、冬は4シーズン用テント、夏は3シーズン用テントを勧めるかもしれません)。
  • システムプロンプト: システムメッセージで共有された特定の好みは会話に影響します(システムプロンプトに「私はヴィーガンだと覚えておいて」と追加すると、「健康的な朝食のアイデア」のようなプロンプトへの回答にも影響します)。
引用符

システムプロンプトを理解するためのたとえ話をしましょう。サッカーをしているとしたら、「トレーニングデータ」は長年の練習の蓄積、つまり長期的な筋肉記憶です。システムプロンプトは、フィールドに入る直前にコーチから言われることです。出力に影響しやすい、強力な短期記憶なのです。

Mark Williams-Cook portrait

Mark Williams-Cook, 創業者(AlsoAsked)

AI検索の回答に影響するパーソナライズ信号の図

そのため、単一のプロンプトへの回答に一喜一憂するのではなく、多くのプロンプトにわたって、ブランドやWebサイトの平均的な可視性を時間の経過とともに追跡するのがよいでしょう。


まとめ

すべてのAI検索エンジン(ChatGPT、Perplexity、Google AI Modeなど)は少しずつ異なりますが、中核となるプロセスは同じです。SEO担当者やマーケターにとって重要なのは、GoogleやBingのような従来の検索エンジンが、AI検索エンジンの稼働に必要なインフラの多くを提供している点です。AI検索に最適化するには、従来のSEOベストプラクティスが大きく関わってきます。

Ryan Law のプロフィール画像
ガイド作成者Ryan Law

ライアン・ローは Ahrefs のコンテンツマーケティングディレクターです。ライアンにはライター、コンテンツ戦略家、チームリーダー、マーケティングディレクター、VP、CMO(最高マーケティング責任者)、エージェンシー設立者として 13 年の経験があります。彼は Google、Zapier、GoDaddy、Clearbit、Algolia など、多くの企業のコンテンツマーケティングと SEO 改善を支援してきました。彼は小説家でもあり、2 種類のコンテンツマーケティングコースの考案者でもあります。

SEO をステップバイステップでマスター

/01

検索エンジンの仕組み

SEO について学習する前に、まず検索エンジンの仕組みを理解しましょう。

/02

SEO の基本

SEO を成功させるウェブサイト作りを学び、SEO における 4 つの主要な側面を理解します。

/03

キーワードリサーチ

SEO の出発点は、ターゲットとなるお客様が何を求めて検索しているのかを理解することです。

/04

SEO コンテンツ

検索エンジンで上位に表示されるコンテンツの作り方をご紹介します。

/05

オンページ SEO

そして、検索エンジンが理解できるようにページを最適化することです。

/06

リンク構築

リンクの獲得状況は、検索エンジンが新しいページを発見し、その「権威」を判断する基準です。リンクを獲得できなければ、競合の多いキーワードの検索順位で上位に入ることは難しくなります。

/07

テクニカル SEO

Google によるウェブサイトへのアクセスや、サイトの情報取得を妨げるような技術的な不具合がないことを確認することが大切です。

/08

ローカル SEO

ローカル検索結果での可視性を向上させ、拠点地域でより多くの顧客を獲得する方法を学びましょう。

/09

AI が SEO にもたらす変化

現在、生成 AI に触れずに SEO について語るのは、もはや不可能です。

/10

AI検索エンジンの仕組み

ChatGPTのようなAI検索エンジンが、どのように回答を生成し、どのブランドや商品に言及するかを選ぶのかを正確に学びましょう。