Ahrefs では、当社のツールおよびサービスのサポートとして、 AhrefsBot と AhrefsSiteAuditの 2 つの主要なウェブクローラーを運用しています。当社のクロールの目的は、サイト所有者がオンラインプレゼンスを改善するのに役立てることであり、サーバーへの負荷を最小限に抑え、安全で透明性のあるクローリングを保証します。
Obeys robots.txt: Yes by default (website owners can request to disobey robots.txt on their sites)
Obeys crawl delay: Yes by default (website owners can request to disobey crawl delay on their sites)
AhrefsBot と AhrefsSiteAudit のどちらも、優れたウェブセキュリティおよびパフォーマンス企業である Cloudflare によって確認済みの「最適な」ボットとして認められています。
AhrefsBot はウェブサイトとそのコンテンツ、そしてそれらがどのようにリンクしているかに関する最新かつ正確な情報をインデックスします。このデータは非常に有用で、様々な形で活用できます。
両方のボットは disallow や allow 規則、および crawl-delay ディレクティブに厳密に従います。確認済みのサイト所有者だけが AhrefsSiteAudit クローラーが通常クロールが許可されていないサイトセクションを調べるために robots.txt を無視できるようにすることができます。
HTML ページを要求する際、クロール遅延を厳守し、指定された速度制限を超えないようにしています。しかし、JavaScript のレンダリングの際はそれを守れません。当社のボットがページをレンダリングする際は、多数のアセット(画像、スクリプト、スタイルシート等)を同時に要求します。このため、サーバーログにはクロール遅延設定で認められているよりも頻繁な要求が記録されることがあります。この動作は、最新のウェブページでは適切なレンダリングと機能のために複数のリソースを同時に読み込むというリアルユーザーの体験を模倣するものです。
クロール中、よくリクエストされるファイル(画像、CSS、JS)をキャッシュして重複する取得を最小限に抑え、帯域幅消費とサーバー負荷を軽減します。
200ステータスではないコード、特に 4xx または 5xx エラーに遭遇した場合、そのサイトのクロール速度を自動的に低下させます。これは、サイトへの障害や高いサーバー負荷を対するストレスを最小限に抑えるためです。
当社は、ボットが顧客のサイトとどのようにやり取りするかをホスティングプロバイダー、CDN、CMS プラットフォームが管理したい場合があることを理解しています。公に利用可能な当社の IP アドレスとユーザーエージェント文字列を利用することで、ユーザーやサービスプロバイダーは、合法的な Ahrefsトラフィックであるか否かを迅速に検証できます。当社はクローリングについて透明性を持ちつつ、信頼と協力を高めるよう尽力しています。ご不明な点がある場合は、[email protected] までいつでもご連絡ください。
明確でユーザーフレンドリーなオプションを提供し、ボットを制御します:
AhrefsBot または AhrefsSiteAudit がサイトを訪問する頻度を変更するには、robots.txt ファイルに連続するリクエスト間の許容できる最小の遅延を指定してください
(ここでの Crawl-Delay の値は秒単位です。)
AhrefsBot または AhrefsSiteAudit にサイトまたは一部のセクションへの訪問を停止させたい場合、Disallow ディレクティブを使用してください。
AhrefsBot が robots.txt ファイルの変更を検出するまでに少々時間を要することがあります。これは次回のクロールの前に行われます。確認されたサイト所有者は、サイト上で AhrefsSiteAudit クローラーが robots.txt に従わないよう設定することができるので、通常クロールが許可されていないサイトセクションの問題を調べることができます。
また、robots.txt にエラーが含まれていると、ボットはコマンドを認識できず、以前と同じようにウェブサイトのクロールを続けます。robots.txt の詳細については www.robotstxt.org をご覧ください。
一時的に AhrefsBot のクロール速度を低下させることができます。これは、サイトへの負荷を軽減したい場合や、インフラの変更がある場合に役立ちます。障害発生期間やメンテナンスの間、4xx や 5xx の HTTP ステータスコードを返すことで一時的にクロール速度を低下します。当社のボットはこれらのエラーを検出し、自動的に速度を落とします。
AhrefsSiteAudit ボットは、クロールを最大毎分 30 URL に制限することでウェブサイトサーバーへの過剰な負荷を防ぎます。ウェブサイト所有者は、サイトの問題をより迅速に知りたい場合、より高速でクロールすることが可能です。そのためには、サイト監査ツールで所有権を確認する必要があります。
クロールの頻度に関しご不明な点がある場合や、確認が必要な疑わしいトラフィックを見かけた場合は、[email protected] までご連絡ください。お客様の問題を明確にし、解決するようお手伝いいたします。