
Ryan Law 作成
Ahrefs コンテンツマーケティングディレクター
ChatGPTに「ワークアウトに最適なオーバーイヤーヘッドフォンをおすすめして」と頼むと、実際には何が起きているのでしょうか?
AI 検索エンジンはどのように回答を生成し、商品のおすすめを選ぶのでしょうか?Google のような従来の検索エンジンとはどう違い(また、どこが共通して)いるのでしょうか?
そして重要なのは、あなたのウェブサイト、ブランド、商品を表示させるにはどうすればよいのでしょうか?
この章のレビューと執筆への貢献に対し、Gianluca FiorelliとMark Williams-Cookに感謝します。
AI検索エンジンとは、大規模言語モデル(LLM)を用いて情報を見つけ、回答を生成する質問応答システムです。
従来の検索エンジンとAI検索エンジンには、いくつかの重要な違いがあります(ただし、従来の検索エンジンがAI機能をより多く取り入れるにつれて、こうした違いは小さくなっています):
こちらは、ChatGPT、Claude、またはAI Modeで見かけるものに似た、典型的なAI検索インターフェースの例です。

このような回答に表示されるためには、まずAI検索エンジンを動かしている中核的なプロセスを理解する必要があります。
LLMは膨大な量のコンテンツで学習されています。実質的に、Wikipedia全体、Common Crawl Dataset全体、Google Books全体、そして何百万ものWebページのコンテンツを「読んで」います。
この学習データによって、LLMは世界に対する「理解」を得ます。もしあなたのヘッドホン会社が、学習データの中に関連する文脈で何度も登場し、かつポジティブな表現(「コスパ最高」「ジムに最適」など)とともに語られていれば、ヘッドホン関連のプロンプトに対するLLMの回答で、あなたの会社が言及される可能性は高くなります。
ご存じですか?
この学習プロセスは、ここで説明したものよりも複雑です。HTMLを取り除き、個人を特定できる情報を削除し、ブロックリストの単語を除外し、特定の言語にデータを絞り込むための事前学習段階があります。また、言語モデルを(単なる次トークン予測器ではなく)役立つチャットアシスタントのように振る舞えるようにするための事後学習段階もあります。詳しくは、Andrej Karpathyの動画Deep Dive into LLMs like ChatGPTをご覧ください。

ここでエンティティベースのSEOが極めて重要になります。あなたのブランドがナレッジグラフに継続的に表示され、スキーママークアップで適切に構造化され、さらにウェブ全体の高品質コンテンツ内で関連エンティティと共起していれば、トレーニングデータにおける「エンティティシグナル」をより強固に構築できます。

Gianluca Fiorelli, 戦略・国際SEO/AI検索コンサルタント
重要なのは、LLMには多くの癖があるということです:
よくある誤解として、LLM はソフトウェアのパッチのように「知識がアップデートされる」と思われがちです。しかし実際には、各モデルは固定されたデータセットで一度だけ学習されます。より新しいナレッジカットオフを持つ新モデルのリリースを見かけたとしても、それは既存モデルへの更新ではなく、ゼロから学習し直したまったく別のモデルです。

Gianluca Fiorelli, 戦略・国際SEO/AI検索コンサルタント
幻覚を起こして古い情報を共有する検索エンジンは、あまり役に立つとは言えません。そのためLLMは、グラウンディングとして知られるプロセスによって、こうした制約の一部を克服しています。
LLMは、(電卓や他のデータAPIなどの)ツールを使う方法、または外部ソースから追加情報を取得する方法という2つのやり方で、回答を検証し改善できます。後者のプロセスは技術的にはRetrieval-Augmented Generation(RAG)として知られています。
ユーザーが質問を入力すると、LLM は自分にこう問いかけます。「答えはすでに知っているのか、それとも追加情報を取りに行くべきか?」LLM が次のトークンを高い確信度で予測できる場合(例えば「赤血球は何をする?」のように、あまり変化しない質問)は、ベース知識から回答する可能性が高いです。確信度が低い場合(例えば「安くておすすめのコーヒーグラインダーは?」のように、変化しやすい質問)は、検索ツールを使ってインターネット上の他ソースから関連情報を探せます。
LLMは、次のように追加情報があると有益になりそうなクエリタイプを認識できるようにファインチューニングされています:
LLMモデルの中には、追加の検索をトリガーしやすいものもあります(たとえば「ディープリサーチ」モデルは、複数回のRAG検索をトリガーするよう特別に設定されています)。

RAGを通じてグラウンドトゥルースを見つける(「グラウンディング」と呼ばれることが多い)このプロセスには、いくつかの利点があります。LLMは、第三者ソースと照合して回答を検証することで、事実の正確性を高め、ハルシネーションを減らせます。学習データが比較的古くなっていても、最新情報を取得して共有できます。さらに、より詳細で網羅的な回答を共有でき、共有するあらゆる内容について、透明性と帰属(出典の明示)をより良く提供できます。
AI 検索エンジンは、クエリ・ファンアウトと呼ばれるプロセスでこのグラウンディングを行います。
重要なのは、クエリのファンアウトが、AIでの可視性において従来のSEOが不可欠である理由を説明している点です。
ChatGPT、Gemini、PerplexityのようなAIアシスタントは、Google、Bing、Braveといった検索インデックスを使って最新情報を取得します。
検索プロバイダーが重要なのは、それぞれランキングアルゴリズム、インデックス、カバレッジが異なるからです。Google検索でブランドの視認性を高めることは、Bingへの依存度がより高いChatGPTよりも、AIモードでの視認性向上に役立つ可能性があります。
| AI 検索エンジン | グラウンディングに使用される検索インデックス |
|---|---|
Web検索がトリガーされると、LLMは検索インデックスに関連性の高い結果を要求します。検索インデックスは結果のリストを返し、LLMはページタイトル、返されたページスニペットの内容、鮮度(公開されたのがどれくらい最近か)などの情報を評価して、クロールする最も関連性の高いページを選びます。
AI検索においてSEOが重要な理由
繰り返す価値があります。GoogleやBingのような従来の検索エンジンは、AI検索エンジンが回答の中でどのコンテンツに言及し、どれを引用するかを判断するうえで、極めて重要な役割を果たしています。
言い換えると、従来の検索で上位にランクインすることが、AI検索での可視性向上につながります。
では、LLMはいったい何を検索しているのでしょうか?
LLMはクエリのファンアウトと呼ばれるプロセスを使います。ChatGPTなどのAI検索エンジンに入力されるプロンプトは、非常に長く会話形式で、しかも完全に固有であることが多いです。こうしたプロンプトをそのままGoogleで検索しても、常に有用なコンテンツが返ってくるとは限りません。
そのため、ユーザーのクエリをそのまま使ってウェブ検索を実行するのではなく…
「eコマースブランド向けに分析プロダクトを販売している中堅B2B SaaS企業のために、6か月間のコンテンツ戦略を計画しています。その企業は…」

…LLMはその最初のプロンプトを使って、関連情報を取得しやすくするための、より短い関連クエリを連続して生成します。
こうしたファンアウト・クエリも大規模言語モデルによって生成されるため、非決定的です。同じ検索であっても、定期的に変わる可能性があります。

Mark Williams-Cook, 創業者(AlsoAsked)
このプロセスはSEO担当者にはおなじみでしょう。これらの関連クエリは、ロングテールキーワード、サブインテント、そして「他の人はこちらも質問(People Also Ask)」の質問と非常によく似ています:
実際、ChatGPT、Gemini、Copilotが引用したリンクのうち、元のユーザープロンプトに対するGoogle検索結果の上位10件に入っているのは12%のみです。しかし、だからといって従来のランキングが無関係というわけではありません。AI検索エンジンは複数の検索クエリを生成してコンテンツを取得します。そして、そのファンアウト・クエリは、あなたの既存のSEO施策が非常に重要になる、より伝統的でキーワード重視の検索であることが少なくありません。

クエリのファンアウトは、ある意味で解放的です。人々がどんな会話形式のプロンプトを使うかを推測する必要がないからです。代わりに、分解されたクエリ、つまりLLMが自然に生成する意味的コンポーネントに最適化しましょう。これらは従来のキーワードリサーチと驚くほど似ています。[topic] + [qualifier]、比較クエリ、定義クエリ、「ベストプラクティス」系コンテンツなどです。既存のSEO調査は、すでにファンアウト領域をカバーしている可能性が高いでしょう。

Gianluca Fiorelli, 戦略・国際SEO/AI検索コンサルタント
LLMが検索インデックスから関連ページを取得しても、それらを全文読むわけではありません。代わりに、ページは小さなテキストの「チャンク」に分割され、モデルはクエリとの関連性が最も高そうなテキスト部分を優先します(場合によってはそこを拡張します)。
これらのチャンクは通常、それぞれ数百〜数千語程度で、ほとんどのWebページ全体から見ればごく一部にすぎません。LLMには厳格なコンテキストウィンドウの制限もあります。ユーザーのプロンプト、取得したすべてのチャンク、自身の回答を含め、処理できるテキスト量には上限があるのです。そのため、どのコンテンツを取得して取り込むかについて、非常に厳選する必要があります。
例を示します:
| ページ全体のコンテンツ | 「グラウンディングとは、モデルが外部ソースを取得し、関連する事実を抽出し、その抽出結果を用いてハルシネーションを減らし、最新性を高めるワークフローです。…その後、複数の情報源をスキャンして情報を比較し、テキストをそのままコピーするのではなく、回答を統合して生成します。この統合のステップによって、特定の1つの情報源への過度な依存を避けることができます。」 |
| スニペット | 「アシスタントがWeb検索を使って外部ソースを取得し、取得した事実に回答をグラウンディングすることでハルシネーションを減らす仕組みを解説する」 |
| 拡張(1~2行) | 「グラウンディングとは、モデルが外部ソースを取得し、関連する事実を抽出し、その抽出結果を用いてハルシネーションを減らし、最新性を高めるワークフローです。モデルは、ウェブ検索を開始する前に、クエリが最新情報または検証可能な情報を必要とするかどうかを評価します。」 |
| 拡張(33~34行) | 「その後、複数の情報源をスキャンして情報を比較し、テキストをそのままコピーするのではなく、回答を統合して生成します。この統合のステップによって、特定の1つの情報源への過度な依存を避けることができます。」 |
LLM がコンテンツを理解しやすい状態にする
これは重要です。AI検索エンジンがインターネット上からコンテンツを取得する際、見えるのは一部の抜粋だけで、ページ全体ではありません。LLM の回答で引用される可能性を最大化するには、ページ全体にアクセスできない場合でも、あなたのページの関連性と価値が LLM にとって理解しやすいものである必要があります。
AI検索エンジンはその後、このテキストを回答生成プロセスに統合します。
生のWebコンテンツはモデルの回答にグラウンディングされます。つまり、前のステップで抽出されたテキストやデータの断片がモデルのコンテキストに追加され、要するに、「Webから役に立つかもしれないコンテキストをいくつか示します。この情報を使ってユーザーの質問に答えてください」と言っているのと同じです。
そこからモデルは、自身の内在的な知識と取得したコンテンツを組み合わせて回答を生成し、ユーザーに共有します。回答には通常、引用が含まれます。これは、グラウンディングのプロセスで使用した情報源へのリンクとなる、クリック可能なURLです。
AI検索エンジンが取得したページのすべてが、最終回答で引用されるわけではありません。モデルは次のようないくつかの要因に基づいて、どの情報源を引用するかを選びます:
つまり、コンテンツが取得されて読まれたとしても、目に見える形で引用される保証はありません。回答内の特定の主張と直接関係があると判断される必要があります。
ここまでが AI 検索エンジンの仕組みの核心ですが、もう一段階の複雑さがあります。それがパーソナライズです。
ChatGPTなどのAI検索エンジンは、個々のユーザーに合わせて結果をパーソナライズできるため、同じプロンプトでも人によって異なる結果が生成されることがあります。パーソナライズは、次のようないくつかの方法で左右されます:
システムプロンプトを理解するためのたとえ話をしましょう。サッカーをしているとしたら、「トレーニングデータ」は長年の練習の蓄積、つまり長期的な筋肉記憶です。システムプロンプトは、フィールドに入る直前にコーチから言われることです。出力に影響しやすい、強力な短期記憶なのです。

Mark Williams-Cook, 創業者(AlsoAsked)

そのため、単一のプロンプトへの回答に一喜一憂するのではなく、多くのプロンプトにわたって、ブランドやWebサイトの平均的な可視性を時間の経過とともに追跡するのがよいでしょう。
すべてのAI検索エンジン(ChatGPT、Perplexity、Google AI Modeなど)は少しずつ異なりますが、中核となるプロセスは同じです。SEO担当者やマーケターにとって重要なのは、GoogleやBingのような従来の検索エンジンが、AI検索エンジンの稼働に必要なインフラの多くを提供している点です。AI検索に最適化するには、従来のSEOベストプラクティスが大きく関わってきます。

ライアン・ローは Ahrefs のコンテンツマーケティングディレクターです。ライアンにはライター、コンテンツ戦略家、チームリーダー、マーケティングディレクター、VP、CMO(最高マーケティング責任者)、エージェンシー設立者として 13 年の経験があります。彼は Google、Zapier、GoDaddy、Clearbit、Algolia など、多くの企業のコンテンツマーケティングと SEO 改善を支援してきました。彼は小説家でもあり、2 種類のコンテンツマーケティングコースの考案者でもあります。
SEO について学習する前に、まず検索エンジンの仕組みを理解しましょう。
SEO を成功させるウェブサイト作りを学び、SEO における 4 つの主要な側面を理解します。
SEO の出発点は、ターゲットとなるお客様が何を求めて検索しているのかを理解することです。
検索エンジンで上位に表示されるコンテンツの作り方をご紹介します。
そして、検索エンジンが理解できるようにページを最適化することです。
リンクの獲得状況は、検索エンジンが新しいページを発見し、その「権威」を判断する基準です。リンクを獲得できなければ、競合の多いキーワードの検索順位で上位に入ることは難しくなります。
Google によるウェブサイトへのアクセスや、サイトの情報取得を妨げるような技術的な不具合がないことを確認することが大切です。
ローカル検索結果での可視性を向上させ、拠点地域でより多くの顧客を獲得する方法を学びましょう。
現在、生成 AI に触れずに SEO について語るのは、もはや不可能です。
ChatGPTのようなAI検索エンジンが、どのように回答を生成し、どのブランドや商品に言及するかを選ぶのかを正確に学びましょう。