AI検索

【1,600万 URL を調査】新調査:AI アシスタントはどのくらいの頻度でリンクのハルシネーションを起こすのか?

ライアン ・ロー
Ahrefs のコンテンツマーケティングディレクター。 過去 13 年間でライター、コンテンツストラテジスト、チームリーダー、マーケティングディレクター、部長、CMO(最高マーケティング責任者)、代理店設立といった様々な役職を経験。その間、Google、Zapier、GoDaddy、Clearbit、Algolia など数十社のコンテンツマーケティングと SEO サポートを担当。小説家の顔も持ち、これまでに 2 種類のコンテンツマーケティング専門講座を自ら開発・設計した。
Chat­G­PT や Claude のような生成 AI アシスタントは、URL のハルシネーション(もっともらしい嘘の生成)を起こし、ユーザーをあなたのウェブサイトの存在しないページに誘導することがあります。しかし、それはどのくらいの頻度で起こるのでしょうか?

それを明らかにするため、Ahrefs は Chat­G­PT, Per­plex­i­ty, Copi­lot, Gem­i­ni, Claude, Mis­tral によって引用された 1,600 万件のユニークな URLHTTP ステータスを調査しました。 

AI アシスタントが実在しない URL を生成し、存在しない記事に誘導する例を示す画像

その結果、生成 AI アシスタントは Google 検索よりも 2.87 倍多くユーザーを 404 ページに送っていることが分かりました。 

中でも Chat­G­PT が最も頻繁で、クリックされた URL の 1.01%、引用された全 URL の 2.38% が 404 エラーステータスを返していました(ベースラインとなる 404 率は、それぞれ 0.15% と 0.84% です)。 

以下が、Ahrefs が発見したことです。 

最初のテストでは、Ahrefs の無料分析ツールであるウェブアナリティクスからの匿名化されたデータを使用しました。これにより、実際のウェブサイト上で AI が推奨した URL への実際の訪問を確認することができました。 

以下のような調査方法でテストを行いました。 

  • ウェブアナリティクスのデータを使用して、リファラーが AI アシスタント(ChatGPT や Per­plex­i­ty など)であるすべての URL を探しました。 
  • ページタイトルに「404」または「not found」のいずれかが含まれている場合、その URL を 404 ページの可能性があるものとしてマークしました。 
  • AI アシスタントについて、404 の可能性があるページの数を、参照された URL の総数と比較して、404 率を算出しました。 
AI アシスタントごとの参照元別 404 発生率を比較した棒グラフ

Chat­G­PT が最も高い 404 ページ率を示し、引用された全 URL の 1.01% のページタイトルに「404」または「not found」が含まれていました。

続いて Claude が 0.58%、Copilot が 0.34%、Perplexity が 0.31%、Gemini が 0.21% となっています。Mistral は最も低い 404 率(0.12%)でしたが、リファラルトラフィックも最も少なく、このテストで最小のサンプルとなりました。

参照元想定される 404 ページ数ユニーク URL 総数404 発生率
Chat­G­PT84,4658,332,4361.01%
Per­plex­i­ty3,5291,133,0840.31%
Copi­lot1,466431,3190.34%
Gem­i­ni734351,2420.21%
Claude55095,2930.58%
Mis­tral86,7600.12%

Google の 404 ベースレート

これは完璧なテストではありません。一部の 404 ページは、ページタイトルに「404」や「not found」を含んでいない可能性があります。また、AI アシスタントによってハルシネーションされたすべてのリンクがクリックされるわけではないため(したがってウェブアナリティクスのデータには表示されない)、ハルシネーションされた URL の総数を過小報告している可能性があります。 

これらの 404 ページの一部は、AI ハルシネーションされた URL ではなく、本物の 404 ページである可能性もあります。このデータにさらなる文脈を加えるために、404 ページの「ベースレート」と比較することができます。そのために、リファラーが Google であるすべてのユニークな URL(6 億 2,900 万件)の 404 率を調べました。この 404 率は 0.15% でした。 

AI アシスタントと Google の参照元別 404 発生率を比較した棒グラフ

この追加の文脈を踏まえると、AI アシスタントの 404 率は、Google の「ベース」404 率よりも著しく高いことが明らかです。ChatGPT, Claude, Copi­lot, Per­plex­i­ty, Gem­i­ni はすべて、ハルシネーションされた URL を生成している可能性が高いようです。 

すべての AI アシスタントの平均 404 率は 0.43% でした。Google から参照された URL の 404 率と比較すると、AI アシスタントは Google 検索の 2.87 倍の割合でユーザーを 404 ページに送っていることになります (0.43/0.15)。

AI アシスタント平均と Google の 404 発生率を比較した棒グラフ

Ahrefs はまた、何百万もの AI アシスタントのプロンプトと出力を検索できる巨大なデータベースであるブランドレーダーを使用して、同様のテストを実施しました。このデータを使用することで、クリックされたものだけでなく、AI アシスタントによって引用されたすべての URL を確認できます。 

  • Ahrefs は、ブランドレーダーのデータベースにある Chat­G­PT, Per­plex­i­ty, Copi­lot, Gem­i­ni によって引用されたすべての URL を見つけました。 
  • それらの URL のうち、Ahrefs のクローラーデータベースにも保存されていたもの(全 URL の 65%)について、最新の HTTP ステータスを取得しました。 
  • AI アシスタントについて、クローラーデータベースにある引用された URL の 404 率を計算しました。 
ブランドレーダーのデータを基に AI アシスタントごとの引用 URL の 404 発生率を比較した棒グラフ

引用された URL(クリックされたものだけでなく)の 404 エラー発生率は、前回のテストよりもはるかに高い結果となりました。

ここでも、ChatGPT が最も高い 404 ページ率(2.38%)を示し、続いて Perplexity(0.87%)と Gemini(0.86%)が僅差で続きました。Copilot は最も低い 404 率で、0.54% でした。 

このテストにも限界があります。前回と同様に、これらの 404 エラーページの一部は、ハルシネーション以外の理由で 404 ステータスを返している可能性があります。また、Ahrefs のクローラーデータベースにある URLHTTP ステータスしか確認できないため、404 URL の総数を過小評価しています(そして、筆者は、ハルシネーションされた URL のかなりの割合が、存在したことがないため、クローラーデータベースにはないと予想しています)。

前回と同様に、これらの数値を「ベースライン」の 404 率と比較したいと考えました。そのために、40 万件の SERP の上位 20 位からすべてのユニークな URL を抽出しました。 

これらの URL の 67% は Ahrefs のクローラーデータベースにもあり、これにより 404 エラー率が 0.84% であると判断できました。(簡単に言えば、Google のトップ 20 にある URL の 0.84% が 404 ステータスを返しているということです。) 

ブランドレーダーのデータを基に AI アシスタントと Google 検索結果上位 20 件の引用 URL における 404 発生率を比較した棒グラフ

Perplexity(0.87%)と Gemini(0.86%)の 404 エラー率は、Google SERP の 404 エラー率(0.84%)に非常に近いです。

これは、Gemini と Per­plex­i­ty が URL を取得するために Google 検索インデックスを使用しているためかもしれません。彼らの 404 エラー率は、基礎となるソースである Google の URL の 404 エラー率を反映しているのです。もしそうなら、彼らの AI ハルシネーション率は Chat­G­PT よりも低い可能性が高いようです。 

Copi­lot は Bing 検索インデックスを使用しているため、Copilot の 404 エラー率は Bing の 404 エラー率を反映している可能性があります。 

AI アシスタント引用されたユニーク URLクローラーデータベース内の URL404 発生率
Chat­G­PT2,452,7761,524,2772.38%
Per­plex­i­ty3,471,7542,450,0160.87%
Copi­lot1,485,3551,120,7800.54%
Gem­i­ni1,354,171641,6030.86%

筆者は、ハルシネーションされたリンクには主に 2 つの原因があると考えています。 

まず、引用された URL の一部は、かつては有効だったものの、現在は 404 ステータスを返すケースです。 AI アシスタントは、ウェブ検索と独自の内部知識を組み合わせて使用します。彼らが引用する URL の一部は、かつては存在していたものの、その後削除されたり(元のページをリダイレクトせずに)移動されたりした可能性があります。特に、内部知識のみに依存している場合はそうです。

(これはまた、これらの 404 ページの多くが Ahrefs のクローラーデータベースに存在する理由も説明しています。) 

次に、引用された URL の別の一部は、真のハルシネーションであり、特定のウェブサイトの URL の期待されるパターンには合致するものの、実際には存在しないケースです。

Ahrefs ブログで最も頻繁に訪問されるハルシネーション URL は、/blog/internal-links//blog/newsletter/ のようなページです。私たちがブログで SEO トピックについて書いており、ニュースレターも持っていることを考えると、これらの URL は典型的な Ahrefs ブログページのパターンに合致していますが、実際には存在しません。

存在しないページとして AI に引用された URL 一覧を示すスプレッドシートのスクリーンショット

これらのハルシネーションされたリンクの一部は、Ahrefs のクローラーデータベースにも存在する可能性があります。公開された AI 生成コンテンツにハルシネーションされた URL が含まれている場合、私たちのクローラーはそれを取得しようと試みます。新規ウェブページの 74% が何らかの AI 生成コンテンツを含んでいることを考えると、これは非常にあり得ることです。

ハルシネーションされた URL の影響を測定したい場合、利用可能な最良のデータソースであなた自身のウェブサイトの URL 解析をすることです。以下に、自分でこれをテストする方法を示します。

1. ウェブサイトのアナリティクスをフィルタリングして AI トラフィックを表示する

まず、ウェブサイトのアナリティクスをフィルタリングして、AI アシスタントから受け取った訪問を表示します。GA4 を使用している場合は、「探索」レポート内の「セッションの参照元」ディメンションに正規表現を適用する必要があります。

SALT.agency のティエリー・ングテグレ氏は、以下の正規表現を推奨しています。新しい AI アシスタントが登場したり、リファラー情報を変更したりした場合は、この式を更新する必要があります。

.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.* 

Ahrefs のウェブアナリティクスを使用している場合は、組み込みの「AI search」チャネルフィルターを使用するだけです。

ウェブアナリティクスのトラフィックソース内で AI 検索からの訪問が表示されているスクリーンショット

興味のある期間を選択し、データを Google スプレッドシートにエクスポートします。 

2. HTTP ステータスを返す Apps Script を生成する

次に、ChatGPT(またはお好みの AI アシスタント)に、Google スプレッドシート内の URLHTTP ステータスを返す Apps Script を生成するよう依頼します。その後、Google スプレッドシートで、「拡張機能」>「Apps Script」に移動し、スクリプトを貼り付けて保存します。

Google スプレッドシートで URL の http ステータスを取得する Apps Script のコード例を示すスクリーンショット

Google スプレッドシートに新しい列を作成し、スクリプトを呼び出し、URL を含むセルをターゲットにし(例:=GetHttpStatus(A2))、列全体に適用します。

(何千もの URL がある場合は時間がかかることがあります。大規模なウェブサイトの場合は、代わりにクローラーを使用する方が良いでしょう。)

3. 404 ステータスと訪問者数 10 人以上でフィルタリングする

次に、シートをフィルタリングして、404 ステータスコードを返し、かつ訪問者を受け取っている URL のみを表示します。 

筆者は、月に 10 人以上の訪問者を受け取っている URL にしきい値を設定しましたが、あなたのウェブサイトにとって意味のあるしきい値を使用できます。

404 ステータスを返し、かつ 10 人以上の訪問者がある URL をフィルタリングしたスプレッドシートのスクリーンショット

これらの URL のいくつかをを手動で検査して、それらがハルシネーションされたものであること(そして、他の理由で利用できない実際のウェブサイトのページではないこと)を確認できます。

4. 301 リダイレクトする(理にかなっている場合)

もし、かなりの数の訪問を受け取っているハルシネーションページがある場合は、ハルシネーションされた URL をウェブサイト上の関連ページに 301 リダイレクトする価値があるかもしれません(もしあれば)。

ハルシネーションされたページが何についてだったかを推測する必要がありますが、多くの場合、URL だけで十分な推測ができます(ハルシネーションされた URL /blog/keywords/ への訪問者は、おそらく私たちの実際のキーワードリサーチのガイドから利益を得るでしょう)。

あるいは、301 リダイレクトのクモの巣を作りたくない場合は、404 ページを更新して、がっかりした LLM 訪問者にとって役立ちそうな有用なリソースのリスト(最も人気のあるコンテンツやニュースレターの購読ページなど)を含めることもできます。

これを気にするべきか?

前回の測定では、AI アシスタント(主に ChatGPT)は、ウェブサイトの総トラフィックの 0.25% を占めていましたが、Google は 39.35% でした。ChatGPT の参照トラフィックの 1.01% が 404 エラーページにつながっていることを考えると、ハルシネーションされた URL が影響を与えるのは、平均的なウェブサイトのトラフィックの、すでに小さい割合の、さらに小さい割合です。

これは、AI 検索のもう一つの特異な性質を理解するための有用な取り組みですが、大きな成長の原動力になるわけではありません。もし、ごくわずかな努力でハルシネーションされた URL の影響を最小限に抑えることができるなら、それはおそらく価値のあることです。

その理由から、Ahrefs はウェブアナリティクスに、たった 2 クリックでハルシネーションされた URL を見つけるのに役立つ新しいフィルターを追加する予定です。もし、月に最大 100 万イベントまで無料のシンプルな Google アナリティクスの代替ツールを探しているなら、ぜひチェックしてみてください。

ウェブアナリティクスのページレポートで Possible 404 フィルターを選択しているスクリーンショット

この調査に関するご質問やご意見はありますか? LinkedIn でお知らせください。