robots.txt AIクローラー設定とは — 定義
robots.txt AIクローラー設定とは、GPTBot(OpenAI/ChatGPT)・PerplexityBot(Perplexity)・Google-Extended(Google AI Overview/Gemini)・ClaudeBot(Anthropic/Claude)などのAI専用クローラーに対してWebサイトへのアクセスを許可・制限するrobots.txtの記述であり、AI検索最適化(AIO/LLMO)において最初に実装すべき技術的基盤である。
robots.txtはすべてのクローラーが最初に参照するファイルです。この設定が誤っていると、どれほど優れたコンテンツや構造化データを持っていても、AIクローラーはサイトを読まず、AI検索への引用は発生しません。
2026年時点の主要AIクローラー一覧
| AIクローラー名 | 対応サービス | robots.txt識別名 |
|---|---|---|
| GPTBot | ChatGPT(OpenAI) | GPTBot |
| ChatGPT-User | ChatGPT検索(ブラウジング) | ChatGPT-User |
| OAI-SearchBot | ChatGPT Search | OAI-SearchBot |
| PerplexityBot | Perplexity | PerplexityBot |
| Google-Extended | Google AI Overview、Gemini | Google-Extended |
| ClaudeBot | Claude(Anthropic) | ClaudeBot |
| anthropic-ai | Anthropic AI学習 | anthropic-ai |
| Bytespider | ByteDance AI(TikTok系) | Bytespider |
| CCBot | Common Crawl(LLM学習データ) | CCBot |
| FacebookBot | Meta AI | FacebookBot |
robots.txt 完全設定テンプレート(AIO対応版)
パターンA:全AIクローラーを完全許可(推奨)
AI検索最適化を最大化したい場合のベース設定です。
# ── Standard search engines ──────────────
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
# ── OpenAI / ChatGPT ─────────────────────
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# ── Perplexity ───────────────────────────
User-agent: PerplexityBot
Allow: /
# ── Google AI (AI Overview / Gemini) ─────
User-agent: Google-Extended
Allow: /
# ── Anthropic / Claude ───────────────────
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
# ── Meta AI ──────────────────────────────
User-agent: FacebookBot
Allow: /
# ── Common Crawl (LLM Training) ──────────
# ※ LLM学習データへの提供を許可する場合
User-agent: CCBot
Allow: /
# ── Sitemap ──────────────────────────────
Sitemap: https://yoursite.com/sitemap.xml
パターンB:AI検索クローラーのみ許可(一部LLM学習除外)
ChatGPT Search・Perplexity・Google AIへの引用は許可しつつ、 LLM学習データへの無断提供を制限したい場合の設定です。
# ── 全クローラー基本許可 ─────────────────
User-agent: *
Allow: /
Disallow: /admin/
# ── AI検索クローラー明示許可 ──────────────
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: ClaudeBot
Allow: /
# ── LLM無許可学習をブロック ───────────────
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
# ── Sitemap ──────────────────────────────
Sitemap: https://yoursite.com/sitemap.xml
パターンC:特定ページのみAIクローラーに提供
製品ページ・サービスページのみAIに読ませ、プレスリリースや採用ページは除外する場合。
User-agent: GPTBot
Allow: /business/
Allow: /news/
Allow: /about/
Disallow: /careers/
Disallow: /ir/
User-agent: PerplexityBot
Allow: /business/
Allow: /news/
Disallow: /
User-agent: Google-Extended
Allow: /
robots.txt設定でよくある3つのミス
ミス①:User-agent: * で全AIをブロックしている
最も多いミスです。セキュリティ意識から過去に設定した Disallow: / がAIクローラーも含めてブロックしています。
確認コマンド(ターミナル):
curl https://yoursite.com/robots.txt
User-agent: * / Disallow: / がある場合は即時修正が必要です。
ミス②:AIクローラーを個別指定でブロックしている
セキュリティソフトや過去の担当者がAIクローラーを不正アクセスと誤認してブロックした状態です。
# これが設定されているとAI検索から除外される
User-agent: GPTBot
Disallow: /
ミス③:Crawl-delay を長く設定しすぎている
# これが設定されているとAIクローラーの巡回頻度が下がる
Crawl-delay: 10
AIクローラーはCrawl-delayに非常に従順です。長い設定はクロール頻度を下げ、AI引用シェアの更新が遅れる原因になります。
robots.txt設定の確認手順(5分で完了)
STEP 1:現在の設定を確認
ブラウザで https://yoursite.com/robots.txt を開きます。
STEP 2:AIクローラーのブロック有無を確認
以下のいずれかがあればAI検索への引用が阻害されています。
User-agent: GPTBot / Disallow: /User-agent: * / Disallow: /(全クローラーブロック)User-agent: AI / Disallow: /(AI全般ブロック)
STEP 3:Google Search Consoleでテスト
Search Console → インデックス → robots.txt テスター → User-Agentに「GPTBot」を入力して確認
STEP 4:実際のクローラーログを確認
Webサーバーのアクセスログ(Apache/Nginx)で GPTBot の実際のクロール履歴を確認します。
ログが確認できない・リアルタイム監視したい場合はHackⅡ「ハカル」機能を活用します。
robots.txt × llms.txt の組み合わせ戦略
robots.txtでクローラーのアクセスを「許可」した後、llms.txtで「何を伝えるか」を設計します。
| ファイル | 役割 | 場所 |
|---|---|---|
| robots.txt | AIクローラーへのアクセス制御 | ルート(必須) |
| llms.txt | AIへのサイト説明書(簡易版) | ルート(推奨) |
| llms-full.txt | AIへのサイト説明書(詳細版) | ルート(推奨) |
| sitemap.xml | クロール優先順位の案内 | ルート(必須) |
4ファイルをセットで整備することがAIクローリング最適化の基盤です。
Regalis Japan GroupのAIクローリング基盤整備支援
Regalis Japan Group(RegalisJPG)はrobots.txt設定確認・llms.txt設計・AIクローラー監視をHackⅡで一気通貫提供します。
HackⅡ ハカル: GPTBot・PerplexityBot・Google-Extended・ClaudeBot・anthropic-aiの5クローラー検出をリアルタイム可視化。robots.txt設定ミスを即時検出
HackⅡ ツクル: llms.txt・llms-full.txtの自動生成・管理。sitemap.xmlのAI最適化版生成
プラン:
- スターター:月額¥9,800(税込)〜 AIクローラー検出・AI可視性スコア
- スタンダード:月額¥98,000〜(税別)llms.txt設計・構造化データ・コンテンツ制作まで一気通貫
30分の無料AI引用診断でrobots.txt設定を即確認。費用・義務なし。
よくある質問
Q. WordPressのrobots.txtはどこで設定しますか?
A. WordPressは「設定 → 表示設定 → 検索エンジンでのサイトの可視性」で全クローラーブロックのオン/オフを設定できますが、AIクローラー個別設定にはrobots.txtファイルを直接編集するか、Yoast SEO / RankMathプラグインの robots.txt エディタを使います。
Q. AIクローラーを許可するとセキュリティリスクはありますか? A. AIクローラーは通常のWebクローラーと同様にHTTPリクエストを送るだけです。SQLインジェクションや不正アクセスとは無関係です。ただし機密情報(/admin/ /private/等)は別途Disallowで除外することを推奨します。
Q. robots.txtを変更してからAI引用に反映されるまで何日かかりますか? A. GPTBotは通常の設定変更を数日〜2週間で認識します。PerplexityBotは比較的頻繁にクロールするため1週間以内に反映されることが多いです。Google-ExtendedはSearch ConsoleのIndex Request機能で反映を促進できます。
まとめ
robots.txt AIクローラー設定はAI検索最適化の0番目の必須ステップです。
- 現在のrobots.txtでAIクローラーがブロックされていないか確認
- GPTBot・PerplexityBot・Google-Extended・ClaudeBotを
Allow: /で許可 - llms.txt・llms-full.txtとセットで整備
- HackⅡ「ハカル」でクローラー検出状況をリアルタイム監視
設定確認から始める無料AI引用診断(30分・費用なし)はこちら。