SEO 全般

AI 生成コンテンツを検出する方法

ライアン ・ロー
Ahrefs のコンテンツマーケティングディレクター。 過去 13 年間でライター、コンテンツストラテジスト、チームリーダー、マーケティングディレクター、部長、CMO(最高マーケティング責任者)、代理店設立といった様々な役職を経験。その間、Google、Zapier、GoDaddy、Clearbit、Algolia など数十社のコンテンツマーケティングと SEO サポートを担当。小説家の顔も持ち、これまでに 2 種類のコンテンツマーケティング専門講座を自ら開発・設計した。
2025 年 4 月、Ahrefs は 90 万件の新規作成されたウェブページを分析し、その 74.2% に AI 生成コンテンツが含まれていることを見つけました。

生成 AI の急速な成長に伴い、企業、教育機関、出版社は、重大な問いに直面しています。人間が書いたものと機械が生成したものを、見分けることはできるのでしょうか?

その答えは、「可能だが、絶対確実ではない」です。ここでは、AI 検出を効果的に行う方法、その際に理解しておくべき限界、そしてより信頼性の高い結果を得るための効果的なアプローチを紹介します。

2025 年 4 月に公開された 90 万超のウェブページのうち、約 72 %が AI による支援または生成コンテンツを含んでいることを示す円グラフ。

調査について詳しくはこちら: 新規ウェブページの 74% に AI 生成コンテンツ。90 万件を大調査で明らかに

AI 生成コンテンツの検出が本当に可能なのか、懐疑的な人もいます。結論から言えば可能ですが、いくつか重要な注意点があります。

AI が生成した文章は、統計的および文体的な独特のパターンが見られる傾向があります。こうしたパターンは人間の読者には必ずしも明確ではありませんが、特別に構築された検出モデルによって多くの場合見抜くことが可能です。

簡単に言えば、すべての AI 検出ツールは、文章内のパターンを大量の人間が書いた文章と AI が生成した文章の例と照らし合わせることで動作します。 

従来、統計的手法による検出が主流でした。単語や n‑gram の頻度、よく見られる構文構造、文体上の特徴、さらにはパープレキシティ(単語選択の予測可能性)やバースティネス(文の長さの変動)といった特徴量を計測し、異常と見なされるパターンを検出していました。

特徴の種類説明
単語の頻度サンプル内で「the」や「cat」のような単語が
何回出現するかを数える。
例:「the」は 3 回、「cat」は 2 回
N‑gram の頻度「the cat」のようなバイグラム (2‑gram) などの
連続した単語の並びを計測する。
例:「the cat」は 2 回出現、「cat sat」は 1 回出現
構文構造主語ー動詞ー目的語(SVO)のような
構造パターンを特定する。
例:「the cat sat」、「the cat yawned」
文体上の特徴口調、視点、またはフォーマルさに注目する。
例:三人称、中立的なトーン
パープレキシティ直前の文脈に基づいて各単語の予測可能性を計算する。
パープレキシティが低いほど、
テキストはより予測可能である
(そして、機械生成の可能性が高い)
ことを意味することが多い。
バースティネス文の長さの変動を比較する。
人間のテキストがより変化に富むのに対し、
AI テキストは一貫した長さを示すことがある。

3 つ目の、あまり一般的ではない手法がウォーターマーキングです。これは AI が文章を生成する際に、隠れたシグナルを埋め込む方法です。

紙幣に施された紫外線マークと同様に、これらのシグナルは後から確認することで、その文章が特定のモデルによる生成かどうかを判断できます。ただし、この仕組みはモデルの提供者が事前に組み込んでいる場合に限り機能します。

現在のところ、OpenAI、Anthropic、Google のような主要な LLM プロバイダーは、一般向けのモデルの出力にウォーターマーキングを使用しているとは公言していません(そもそも、自社のユーザーを不利にするようなことをしたい理由はないでしょう)。

AI 検出ツールは数多く存在しており、無料で使えるブラウザベースのチェッカーから、API 連携が可能なエンタープライズ向けプラットフォームまで幅広く揃っています。 

Ahrefs ユーザーであれば、サイトエクスプローラーページ検査を使って、直接 AI コンテンツ検出ツールを実行できます。手順は簡単で、サイトエクスプローラーを開き、チェックしたい URL を入力し、ページ検査レポートに移動します。そこで AI 検出器タブをクリックすれば、他の主要な SEO 指標とあわせて分析結果を確認できます。 

Ahrefs サイトエクスプローラーでの AI コンテンツ検出結果を示す画面。AI 45%、人間 34%、ミックス 21%

優れた検出ツールは、単に「はい」か「いいえ」かの判定を下すだけではありません。文章を分解して、各部分が AI によって生成された可能性を示したり、記事全体としての可能性スコアを提供したり、場合によっては、どのモデル(GPT-4o など)がコンテンツの生成に使われたと考えられるかまで推定することもあります。

AI 検出ツールによる AI と人間のコンテンツ割合を示す結果。AI 45%、ミックス 21%、人間 34%

Ahrefs は、小規模なテストでいくつかの人気 AI 検出ツールを比較し、実際の利用状況でどの程度の性能を発揮するかを確かめました。以下の表がその結果です。

AI 検出ツール比較表。Ahrefs と Copyleaks が高精度、Grammarly と Writer は低精度

テスト結果に基づくと、Ahrefs の AI 検出ツールと Copy­leaks が最も高い性能を示し、GPTZero と Originality.ai が僅差で続きました。一方、Grammarly と Writer は、今回のテストでは最も低い性能となりました。

AI コンテンツ検出ツールスコア
Ahrefs13/18
Copy­leaks13/18
GPTZe­ro12/18
Originality.ai12/18
Scrib­br10/18
ZeroG­PT9/18
Gram­marly6/18
Writer4/18

LLM と同様に、AI 検出ツールも確率的に動作し、確実性ではなく可能性を推定します。非常に正確であることもありますが、誤検知は避けられません。そのため、単一の結果に頼って判断すべきではありません。複数回チェックを行い、パターンを見極め、他の証拠と併せて総合的に判断しましょう。

AI 検出ツールは、どの製品や技術を使っても、基本的な限界は共通しています。

  • 大幅に編集されたり「人間らしく加工」された AI による文章は、検出をすり抜ける可能性があります。文章の言い換え、類義語への置き換え、段落の並べ替え、文法チェッカーの利用などの「後処理」によって、検出ツールが頼りにする統計的なシグナルが乱れ、検出の精度が低下する恐れがあります。
  • 基本的な検出ツールは、精度や高度な機能に欠ける可能性があります。 新しい AI モデルに対応するためには、ツールの頻繁な更新が必要です。生成 AI は急速に進化しており、検出ツールは最新の文章スタイルや回避技術を見抜くために、定期的な再トレーニングが求められます。Ahrefs の検出ツールは、OpenAI、Anthropic、Meta、Mixtral、Qwen といった複数の主要モデルに対応しており、幅広い生成元の可能性を想定してコンテンツをチェックすることができます。
  • 効果は、言語、コンテンツの種類、モデルによって異なります。 主に英語の散文で訓練された検出ツールは、技術文書や詩、使用頻度の低い言語では精度が低下する可能性があります。
  • 曖昧なケース(AI によって編集された人間のテキストなど)は、結果を曖昧にする可能性があります。 これらのハイブリッドなワークフローは、信号を混在させ、高度なシステムであっても混乱させる可能性があります。
  • 最良のツールであっても、偽陽性や偽陰性を出すことがあります。統計的な検出は決して万能ではなく、人間と AI の文章パターンが一部重なるため、誤判定は避けられません。さらに、わずかな編集や独特な文体によっても、その境界は容易に曖昧になってしまいます。

覚えておいてください。誤った AI 検出結果に基づく虚偽の告発は、個人や企業、学術機関の評判を深刻に傷つける可能性があります。

こうした限界を踏まえ、結論を出す前に、検出結果をほかの方法でも裏付けることが望ましいでしょう。

人間による判断は、AI 検出ツールの結果に文脈を加えるうえで非常に有効です。複数の記事にわたるパターン、SNS での投稿履歴、公開時の状況などといった文脈を確認することで、執筆に AI が関与した可能性をより的確に判断できます。 

注目すべき兆候: 

  • 微妙な癖のない、過度に一貫したトーン:人間の文章は本来、少し雑で予測不能な部分があり、文体やリズム、語彙の選び方に小さな変化が生まれます。こうした揺らぎは書き手の個性や文脈を反映したものです。一方、AI が生成した文章にはこれらの不完全さが欠けることがあり、過度に整いすぎていて、どこか機械的または作り物めいた印象を与えることがあります。
  • 冗長性:AI は、単純なアイデアを冗長で長ったらしい説明に引き延ばすのが得意です。
  • 新しい情報の欠如:AI が生成した文章は、総じてありきたりで表面的に感じられることが多いです(特に LinkedIn において顕著で、多くの AI 生成コメントが、元の投稿者の主張を言い換えるだけで、新たな視点や価値をほとんど付け加えていません)。
  • 特徴的な語彙選択:AI は、「 ever-evolv­ing landscape(絶えず進化する状況)」のようにやや不自然な慣用句や、「This isn’t X… it’s Y(これは X ではなく… Y です)」のような定型的な書き出し、あるいは ダッシュ(ー)や絵文字の多用など、独特の癖を好む傾向があります。
  • インセンティブ:著者が AI コンテンツを使用する明確な動機があるかどうか。
The Bigger Picture と題された引用で、AI コンテンツ検出よりも活用方法の決定が重要と強調している
(その知識をどのように活用していくのかを決めることこそが重要です、という Chat­G­PT のアウトプットに対して)さすが ChatGPT。お見通しですね。

これらの兆候だけでは、AI 生成コンテンツであるという決定的な証拠にはなりませんが、他の証拠に役立つ文脈を加えることができます。

1つの記事に AI 検出ツールをかけた場合、不正確な結果が出ると問題になることがあります。しかし、実施するスケールを大きくすれば、その問題の影響は小さくなります。多くのページに対して同じプロセスを行うことで、企業のより広範なマーケティング戦略の中で AI がどのように活用されているかを、より明確に把握することができます。

Ahrefs のサイトエクスプローラーにある上位ページレポートでは、ほぼすべてのウェブページについて、「AI コンテンツレベル」の列が表示されます。そこから特定の URL を詳細に調べ、そのページの作成に使用された可能性が高い AI モデルを推測することもできます。 

このプロセスを解説した動画はこちらです。

ちょっとしたコツですが、このレポートを使えば、検索順位が高く、かつ AI 生成度の高いコンテンツを見つけることができます。もし、それが上位表示されているならば、検索意図を満たしているということになります。つまり、自分の AI コンテンツ制作ワークフローに組み込むことで、チャンスにつながる可能性があります。