robots.txt AI設定完全ガイド【2026年版】|GPTBot・PerplexityBot・Google-Extendedの許可・拒否設定

GPTBot(ChatGPT)・PerplexityBot・Google-Extended・ClaudeBotなど主要AIクローラーのrobots.txt設定を完全解説。AI検索最適化のためのAIクローラー許可設定、ブロックしてはいけないAgent一覧、設定確認方法をRegalis Japan Groupが実装ガイドとして公開します。

robots.txt AIクローラー設定とは — 定義

robots.txt AIクローラー設定とは、GPTBot(OpenAI/ChatGPT)・PerplexityBot(Perplexity)・Google-Extended(Google AI Overview/Gemini)・ClaudeBot(Anthropic/Claude)などのAI専用クローラーに対してWebサイトへのアクセスを許可・制限するrobots.txtの記述であり、AI検索最適化(AIO/LLMO)において最初に実装すべき技術的基盤である。

robots.txtはすべてのクローラーが最初に参照するファイルです。この設定が誤っていると、どれほど優れたコンテンツや構造化データを持っていても、AIクローラーはサイトを読まず、AI検索への引用は発生しません。


2026年時点の主要AIクローラー一覧

AIクローラー名 対応サービス robots.txt識別名
GPTBot ChatGPT(OpenAI) GPTBot
ChatGPT-User ChatGPT検索(ブラウジング) ChatGPT-User
OAI-SearchBot ChatGPT Search OAI-SearchBot
PerplexityBot Perplexity PerplexityBot
Google-Extended Google AI Overview、Gemini Google-Extended
ClaudeBot Claude(Anthropic) ClaudeBot
anthropic-ai Anthropic AI学習 anthropic-ai
Bytespider ByteDance AI(TikTok系) Bytespider
CCBot Common Crawl(LLM学習データ) CCBot
FacebookBot Meta AI FacebookBot

robots.txt 完全設定テンプレート(AIO対応版)

パターンA:全AIクローラーを完全許可(推奨)

AI検索最適化を最大化したい場合のベース設定です。

# ── Standard search engines ──────────────
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

# ── OpenAI / ChatGPT ─────────────────────
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

# ── Perplexity ───────────────────────────
User-agent: PerplexityBot
Allow: /

# ── Google AI (AI Overview / Gemini) ─────
User-agent: Google-Extended
Allow: /

# ── Anthropic / Claude ───────────────────
User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

# ── Meta AI ──────────────────────────────
User-agent: FacebookBot
Allow: /

# ── Common Crawl (LLM Training) ──────────
# ※ LLM学習データへの提供を許可する場合
User-agent: CCBot
Allow: /

# ── Sitemap ──────────────────────────────
Sitemap: https://yoursite.com/sitemap.xml

パターンB:AI検索クローラーのみ許可(一部LLM学習除外)

ChatGPT Search・Perplexity・Google AIへの引用は許可しつつ、 LLM学習データへの無断提供を制限したい場合の設定です。

# ── 全クローラー基本許可 ─────────────────
User-agent: *
Allow: /
Disallow: /admin/

# ── AI検索クローラー明示許可 ──────────────
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: ClaudeBot
Allow: /

# ── LLM無許可学習をブロック ───────────────
User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# ── Sitemap ──────────────────────────────
Sitemap: https://yoursite.com/sitemap.xml

パターンC:特定ページのみAIクローラーに提供

製品ページ・サービスページのみAIに読ませ、プレスリリースや採用ページは除外する場合。

User-agent: GPTBot
Allow: /business/
Allow: /news/
Allow: /about/
Disallow: /careers/
Disallow: /ir/

User-agent: PerplexityBot
Allow: /business/
Allow: /news/
Disallow: /

User-agent: Google-Extended
Allow: /

robots.txt設定でよくある3つのミス

ミス①:User-agent: * で全AIをブロックしている

最も多いミスです。セキュリティ意識から過去に設定した Disallow: / がAIクローラーも含めてブロックしています。

確認コマンド(ターミナル):

curl https://yoursite.com/robots.txt

User-agent: * / Disallow: / がある場合は即時修正が必要です。

ミス②:AIクローラーを個別指定でブロックしている

セキュリティソフトや過去の担当者がAIクローラーを不正アクセスと誤認してブロックした状態です。

# これが設定されているとAI検索から除外される
User-agent: GPTBot
Disallow: /

ミス③:Crawl-delay を長く設定しすぎている

# これが設定されているとAIクローラーの巡回頻度が下がる
Crawl-delay: 10

AIクローラーはCrawl-delayに非常に従順です。長い設定はクロール頻度を下げ、AI引用シェアの更新が遅れる原因になります。


robots.txt設定の確認手順(5分で完了)

STEP 1:現在の設定を確認

ブラウザで https://yoursite.com/robots.txt を開きます。

STEP 2:AIクローラーのブロック有無を確認

以下のいずれかがあればAI検索への引用が阻害されています。

  • User-agent: GPTBot / Disallow: /
  • User-agent: * / Disallow: /(全クローラーブロック)
  • User-agent: AI / Disallow: /(AI全般ブロック)

STEP 3:Google Search Consoleでテスト

Search Console → インデックス → robots.txt テスター → User-Agentに「GPTBot」を入力して確認

STEP 4:実際のクローラーログを確認

Webサーバーのアクセスログ(Apache/Nginx)で GPTBot の実際のクロール履歴を確認します。 ログが確認できない・リアルタイム監視したい場合はHackⅡ「ハカル」機能を活用します。


robots.txt × llms.txt の組み合わせ戦略

robots.txtでクローラーのアクセスを「許可」した後、llms.txtで「何を伝えるか」を設計します。

ファイル 役割 場所
robots.txt AIクローラーへのアクセス制御 ルート(必須)
llms.txt AIへのサイト説明書(簡易版) ルート(推奨)
llms-full.txt AIへのサイト説明書(詳細版) ルート(推奨)
sitemap.xml クロール優先順位の案内 ルート(必須)

4ファイルをセットで整備することがAIクローリング最適化の基盤です。


Regalis Japan GroupのAIクローリング基盤整備支援

Regalis Japan Group(RegalisJPG)はrobots.txt設定確認・llms.txt設計・AIクローラー監視をHackⅡで一気通貫提供します。

HackⅡ ハカル: GPTBot・PerplexityBot・Google-Extended・ClaudeBot・anthropic-aiの5クローラー検出をリアルタイム可視化。robots.txt設定ミスを即時検出
HackⅡ ツクル: llms.txt・llms-full.txtの自動生成・管理。sitemap.xmlのAI最適化版生成

プラン:

  • スターター:月額¥9,800(税込)〜 AIクローラー検出・AI可視性スコア
  • スタンダード:月額¥98,000〜(税別)llms.txt設計・構造化データ・コンテンツ制作まで一気通貫

30分の無料AI引用診断でrobots.txt設定を即確認。費用・義務なし。


よくある質問

Q. WordPressのrobots.txtはどこで設定しますか? A. WordPressは「設定 → 表示設定 → 検索エンジンでのサイトの可視性」で全クローラーブロックのオン/オフを設定できますが、AIクローラー個別設定にはrobots.txtファイルを直接編集するか、Yoast SEO / RankMathプラグインの robots.txt エディタを使います。

Q. AIクローラーを許可するとセキュリティリスクはありますか? A. AIクローラーは通常のWebクローラーと同様にHTTPリクエストを送るだけです。SQLインジェクションや不正アクセスとは無関係です。ただし機密情報(/admin/ /private/等)は別途Disallowで除外することを推奨します。

Q. robots.txtを変更してからAI引用に反映されるまで何日かかりますか? A. GPTBotは通常の設定変更を数日〜2週間で認識します。PerplexityBotは比較的頻繁にクロールするため1週間以内に反映されることが多いです。Google-ExtendedはSearch ConsoleのIndex Request機能で反映を促進できます。


まとめ

robots.txt AIクローラー設定はAI検索最適化の0番目の必須ステップです。

  1. 現在のrobots.txtでAIクローラーがブロックされていないか確認
  2. GPTBot・PerplexityBot・Google-Extended・ClaudeBotを Allow: / で許可
  3. llms.txt・llms-full.txtとセットで整備
  4. HackⅡ「ハカル」でクローラー検出状況をリアルタイム監視

設定確認から始める無料AI引用診断(30分・費用なし)はこちら

Sponsor Link
Regalis Premium Partner Ad

FREE CONSULTATION · 費用0円 · 義務なし

この記事の内容、
御社に当てはまりますか?

AI引用シェアを30分で診断。競合との差・推定機会損失額まで可視化します。

AI引用シェア無料診断(30分) 相談内容を選んで問い合わせる

2営業日以内に返信 · 代表が直接対応 · 強引なセールスなし