前回は、あなたのサイトのコメント欄やフォームが、AIエージェントへの攻撃の「踏み台」として悪用されるリスクを取り上げた。
今回の話は、それよりもずっと静かに、しかし確実に進行している問題だ。あなたのサイトのコンテンツは、あなたが想定しているよりも遥かに多くのAIエージェントに、遥かに多くの情報を読み取られている。
226種類のAIクローラー
あなたの会社のサイトに、今日何種類のAIクローラーがアクセスしただろうか。
Cloudflareの調査によれば、現在確認されているAIクローラーは226種類に上る。OpenAI、Google、Anthropic、Meta、Perplexityといった大手だけでなく、データ収集専門の企業、オープンソースのスクレイピングツール、そして正体不明のボットまで含まれる。
しかも、これらのAIクローラーは3つのまったく異なる目的を持っている。この区別を理解していないと、守るべきものを守れず、開くべきものを閉じてしまう。
トレーニングクローラー——GPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended(Google)など。サイトのコンテンツをコピーし、AIモデルの学習データに取り込む。あなたのコンテンツは次世代AIの「知識」になるが、帰属表示もリンクも得られない。
検索・引用クローラー——OAI-SearchBot(OpenAI)、Claude-SearchBot(Anthropic)、PerplexityBot(Perplexity)など。ユーザーの質問に答える際に、リアルタイムでサイトを参照し、回答に引用・リンクする。これをブロックすると、AI検索からの流入を失う。
ユーザー起動型エージェント——ChatGPT-User(OpenAI)、Claude-User(Anthropic)、Google-Agent(Google)など。人間のユーザーが「このサイトを調べて」と指示したときに、エージェントが代わりにアクセスする。
経営者にとって重要なのは、この3つを一括でブロックしてはいけないということだ。トレーニングクローラーをブロックすることと、検索クローラーをブロックすることでは、ビジネスへの影響がまったく異なる。
robots.txtが守れない時代
「robots.txtを設定すれば大丈夫」——これは2024年までは概ね正しかった。しかし2026年の現在、robots.txtだけではサイトを守れない。
robots.txtの3つの限界
限界1:自己申告に依存している。 robots.txtは「お行儀の良いbot」が自発的に従うルールにすぎない。悪意あるスクレイパーやUser-Agentを偽装するボットは、robots.txtを完全に無視する。1994年に設計されたこのプロトコルは、善意の遵守を前提としている。
限界2:ユーザー起動型エージェントは対象外。 2026年3月20日、Googleが公式クローラーリストに「Google-Agent」を追加した。Gemini AgentなどのGoogle製AIエージェントがユーザーの指示でサイトを訪問するときに使われる新しいUser-Agentだ。
そしてこのGoogle-Agentは、robots.txtを無視する設計になっている。
Googleの公式ドキュメントには「ユーザーのリクエストに基づくフェッチであるため、これらのフェッチャーは一般的にrobots.txtルールを無視します」と明記されている。論理は明確で、「人間がブラウザにURLを入力すればrobots.txtに関係なくページが表示されるのと同じ」というわけだ。
一方、OpenAIのChatGPT-UserやAnthropicのClaude-Userはrobots.txtを尊重すると表明している。つまり、同じ「ユーザー起動型エージェント」でも、プロバイダーによってrobots.txtへの対応がバラバラだ。
限界3:粒度が粗すぎる。 robots.txtで制御できるのは「このパスにアクセスしていいかどうか」だけだ。「このページの価格情報だけは読み取らないでほしい」「テキストは読んでいいが画像は取らないでほしい」といった細かい制御はできない。
Anthropicの「3ボット体制」
この限界に対する業界の動きも始まっている。Anthropicは2026年2月にクローラーを3つに分離した。
- ClaudeBot——トレーニング用。ブロックすると、今後のAIモデルの学習データから除外される
- Claude-SearchBot——検索用。ブロックすると、Claude検索での表示・引用がされなくなる
- Claude-User——ユーザー起動型。ブロックすると、Claudeユーザーがサイトを参照できなくなる
OpenAIも同様の3段構造(GPTBot / OAI-SearchBot / ChatGPT-User)を採用している。
これにより、「トレーニングには使わせないが、検索には表示させる」という選択的な戦略が可能になった。実際にこの戦略を取るサイトが急増しており、主要ニュースサイトを対象とした調査ではトレーニングクローラーのClaudeBotは69%のサイトでブロックされている一方、検索・引用クローラーのブロック率はそれより低い(BuzzStream調査、2025年12月)。
三層のアクセスポリシー設計
robots.txtだけでは守れない。では、何をどう組み合わせればいいのか。
unTypeでは、AIエージェント時代のアクセスポリシーを三層構造で設計することを推奨している。
第1層:robots.txt——誰を入れるか
最も基本的な層。AIクローラーのUser-Agent別にアクセスを許可・拒否する。
ポイントは、「全部ブロック」でも「全部許可」でもなく、3カテゴリ(トレーニング・検索・エージェント)ごとに判断すること。2026年の主流戦略は「トレーニングクローラーをブロックし、検索クローラーは許可する」だ。ただしGoogle-Agentのようにrobots.txtを無視するエージェントが存在するため、この層だけでは不完全。
また、AIクローラーは頻繁に新しいUser-Agentを追加する。Anthropicはかつて「anthropic-ai」「claude-web」というUser-Agentを使っていたが、現在はどちらも廃止されて「ClaudeBot」「Claude-SearchBot」「Claude-User」に変更されている。robots.txtは「設定して終わり」ではなく、四半期ごとの見直しが必要だ。
第2層:llms.txt——何を読んでもらうか
robots.txtが「入場制限」だとすれば、llms.txtは「館内ガイド」だ。
llms.txtは、サイトの構造と概要をAIエージェントが効率的に理解できるよう、機械可読な形式で記述するファイルだ。サイトルートに配置し、「このサイトは何か」「どんなセクションがあるか」「どのページが重要か」をMarkdown形式で宣言する。
セキュリティの観点からllms.txtが重要なのは、AIエージェントに「読ませたい情報」を能動的に制御できる点だ。llms.txtがなければ、エージェントはサイト全体をクロールして自分で情報を探す。その過程で、意図しないページや内部的な情報に到達する可能性がある。llms.txtがあれば、「ここを読めば必要な情報がある」とエージェントを誘導でき、不要なページへのアクセスを間接的に減らせる。
llms.txtの設計と活用については、当社ブログ「llms.txtとは何か」で詳しく解説しているので、そちらも参照してほしい。
第3層:利用規約(Terms of Service)——法的な境界線
技術的な制御の上位に位置するのが、法的拘束力を持つ利用規約だ。
EU著作権指令(第4条)は、商用AIのテキスト・データマイニングに対してオプトアウト権を認めており、robots.txtがその事実上の標準メカニズムとなっている。米国ではNYT vs. OpenAI訴訟(2023年12月提訴)で、大規模なAIトレーニング目的のスクレイピングが著作権侵害に該当しうるとの見方が示され、2025年3月には連邦裁判所がOpenAI側の主要クレーム棄却申請を却下、訴訟の継続が決定している。
利用規約にAIエージェントによるアクセスに関する条項を追加しておくことは、万が一の場合の法的根拠として機能する。具体的には以下の項目を検討すべきだ。
- AIモデルのトレーニング目的でのコンテンツ利用の禁止または制限
- 自動化されたアクセスのレート制限
- スクレイピングによるデータ収集の禁止
- 違反時の法的措置の明示
三層すべてを揃えることで、「技術的に制御し、意図を伝え、法的に保護する」体制ができる。
「偽装エージェント」という見えないリスク
ここまでは「正規のAIクローラー」の話だった。しかし実際のアクセスログを見ると、もう一つの問題が浮かび上がる。
User-Agentを偽装した悪意あるボットの存在だ。
正規のGPTBotやClaudeBotのUser-Agent文字列は公開されている。悪意ある第三者がその文字列をコピーしてリクエストを送れば、サーバーログ上は「正規のAIクローラー」と区別がつかない。
第1回で取り上げたOpenClawのようなツールは、User-Agent文字列を自由に設定できる。セキュリティに問題を抱えたまま動いているOpenClawエージェントが、正規のボットを装ってサイトにアクセスする可能性もある。
偽装エージェントへの対策として、以下が有効だ。
DNSリバースルックアップ——正規のGPTBotやGooglebotは、IPアドレスからDNS逆引きすると、openai.comやgoogle.comのドメインに解決される。偽装ボットのIPは別のドメインに解決されるか、逆引きが失敗する。
IP範囲の照合——OpenAIとGoogleは正規クローラーのIPアドレス範囲を公開している。アクセス元のIPがこの範囲内にあるかを検証する。Googleは2025年3月からIP範囲のJSONファイルを日次更新に変更しており(2026年3月末にはファイルのURLパスも /crawling/ipranges/ に移転)、最新の範囲を追跡することが重要だ。一方、Anthropicは現時点ではIP範囲を公開しておらず、サービスプロバイダーのパブリックIPを使用しているため、IP照合による検証ができない。AnthropicのボットについてはDNSリバースルックアップや行動パターン分析での判別が中心となる。
行動パターンの分析——正規のAIクローラーは一定のアクセスパターンを持つ。異常な速度でのアクセス、通常のクロール順序と異なるアクセスパターン、特定のページへの集中的なアクセスなどは、偽装ボットの兆候だ。
「web-bot-auth」——次世代の認証が始まる
robots.txtの限界を根本的に解決しようとする動きも始まっている。
Cloudflareが提案し、IETFで標準化が進められている「web-bot-auth」プロトコルだ。ボットが暗号署名でリクエストに自分の身元を証明する仕組みで、User-Agent文字列の偽装を不可能にする。
GoogleはすでにこのプロトコルをGoogle-Agentで実験しており、https://agent.bot.goog というIDで暗号署名付きリクエストを送信するテストが行われている。
このプロトコルが標準化されれば、「本当にGPTBotなのか」「偽装ボットではないか」の判別がサーバー側で確実に行えるようになる。標準化のスケジュールは2026年中頃が目標とされているが、企業のサイト運営者としては動向を追っておく価値がある。
経営者が判断すべきこと
判断1:3カテゴリ別のアクセスポリシー
トレーニング・検索・エージェントの3カテゴリそれぞれについて、自社のビジネスモデルに照らしてアクセスの許可・拒否を判断する。
「全部ブロック」はAI検索からの流入を失う。「全部許可」はコンテンツがトレーニングデータに吸収される。どちらもビジネスインパクトがある。Web担当者にこの判断を丸投げせず、マーケティング部門と情報システム部門が連携して決定すべきテーマだ。
判断2:llms.txtの整備
自社サイトにllms.txtを配置し、AIエージェントに「何を読んでほしいか」を能動的に伝える。robots.txtが「禁止のリスト」であるのに対し、llms.txtは「推奨のリスト」だ。両方を揃えることで、AIエージェントに対するサイトの意図が明確になる。
判断3:利用規約の更新
AIエージェントによるアクセスに関する条項を利用規約に追加する。法務部門と連携し、EU著作権指令やNYT vs. OpenAI訴訟の動向を踏まえた条項設計を行う。
判断4:robots.txtの定期レビュー体制
AIクローラーのUser-Agentは頻繁に変更・追加される。四半期ごとにrobots.txtをレビューし、新しいクローラーに対する指示を追加する運用体制を作る。
次回予告
ここまで3回にわたり、AIエージェントがもたらすセキュリティリスクの全体像、間接的プロンプトインジェクション、そしてデータ保護とアクセスポリシーを取り上げてきた。
第4回では、AIエージェントが実際に「行動する」場面を扱う。フォーム送信、商品購入、予約——「購入ボタン」を押すのは、もう人間だけではない。フォーム防御、API権限設計、そしてマッキンゼー事件を深掘りしたAPI設計の教訓を解説する。
この記事はシリーズ「AIエージェント時代のWebサイト防衛戦略」の第3回です。
参考情報
各社公式クローラードキュメント
Overview of OpenAI Crawlers — OpenAI Platform
Does Anthropic crawl data from the web, and how can site owners block the crawler? — Anthropic Privacy Center
Overview of Google crawlers and fetchers — Google for Developers
Google User-Triggered Fetchers — Google for Developers(2026年3月20日更新)
Perplexity Crawlers — Perplexity Docs
関連情報
Gemini Agent — Google
Google-Agent: The Web's New Visitor Just Got an Identity — No Hacks(2026年4月)
Google-Agent Ignores robots.txt: What Agency SEOs Need to Know Right Now — Vantacron(2026年3月)
Anthropic clarifies how Claude bots crawl sites and how to block them — Search Engine Land(2026年2月25日)
ClaudeBot, Claude-User & Claude-SearchBot: Anthropic's Three-Bot Framework — ALM Corp(2026年2月26日)
Robots.txt Strategy 2026: Managing AI & Traditional Crawlers — Witscode(2026年2月)
List of Top AI Search Crawlers + User Agents — Momentic
llms.txt — 公式仕様
draft-meunier-web-bot-auth-architecture — IETF(web-bot-authプロトコル ドラフト)
OWASP Top 10 for Agentic Applications 2026 — OWASP GenAI Security Project(2025年12月9日)
この記事をシェアする