この記事でわかること
- AIが情報を得る3つのソース(学習データ・RAG・プラグイン)
- 企業が「対策できる」のはどの部分か
- AIクローラーとGooglebotの根本的な違い
- 2026年にAIが重視するコンテンツの条件5つ
そもそもAIは「どこから」情報を得るのか
ChatGPTやPerplexityに質問したとき、AIはどこから情報を取得しているのでしょうか。情報源は主に3つに分類されます。
ソース1:学習データ(訓練時に取り込んだ情報)
モデルが訓練された際に学習した膨大なテキストデータです。Wikipedia・ニュース記事・学術論文・Webサイトなどが含まれます。
特徴:
- カットオフ日以降の情報は含まれない
- 学習時点で「正確だった情報」でも、現在は古くなっている可能性がある
- 削除済みのページ内容も残存することがある
ソース2:RAG(Retrieval-Augmented Generation)
「検索拡張生成」と訳されます。AIが回答生成の直前にリアルタイムでWebを検索し、取得した情報を組み合わせて回答します。
主なRAG対応ツール:
- Perplexity(全クエリでRAGを使用)
- ChatGPT(Web検索モード有効時)
- Bing AI(Copilot)
- Google AI Overview
RAGに対応しているツールでは、公式サイトが今現在どのような状態かが直接影響します。
ソース3:プラグイン・API接続
特定のサービスとAIがAPI経由で接続し、リアルタイムのデータを取得します。例:天気予報・株価・カレンダーなど。現時点では一般的な企業情報には直接影響しません。
企業にとって「対策できる」のはどれか
| ソース | 企業が対策できるか | 対策方法 |
|---|---|---|
| 学習データ | 間接的にのみ | llms.txt・JSON-LD・コンテンツ整備 |
| RAG | 直接対策可能 | 公式サイトの機械可読性向上 |
| プラグイン・API | 限定的 | 対応AIサービスへのAPI登録 |
最も効果的なのはRAG対策です。 公式サイトをAIクローラーが正確に読み取れる状態にすることで、リアルタイム検索時に正確な情報が引用されます。
AIクローラーとGooglebotの違い
多くの企業が「GoogleのSEO対策 = AI検索対策」と誤解しています。しかし、AIクローラーとGooglebotは目的も動作も異なります。
| 項目 | Googlebot | AIクローラー(GPTBot等) |
|---|---|---|
| 主な目的 | 検索ランキング評価 | 学習データ・RAGソース収集 |
| 重視するもの | 被リンク・コンテンツ量・UI/UX | テキスト・構造化データ・定義の明確さ |
| 読むもの | HTML全体・JavaScript | プレーンテキスト・JSON-LD優先 |
| 画像・動画 | 評価対象 | ほぼ無視(テキスト抽出のみ) |
| robots.txt | 尊重 | 尊重(設定が必要) |
| サイト速度 | 重要 | あまり関係ない |
| 主要AIクローラー | — | GPTBot / ClaudeBot / PerplexityBot |
Googleの評価が高いサイトでも、AIに正確に読まれない可能性があります。 逆に、Googleランキングが低くてもAI検索で上位に引用されるケースもあります。
「機械可読性」がAI時代のSEOの核心
AI検索最適化において最も重要な概念が「機械可読性(Machine Readability)」です。
AIはテキストを「人間が読むように」解釈するのではなく、「構造的な情報の塊」として処理します。
機械可読性を下げる要因:
- JavaScript で動的生成されるコンテンツ(AIは読めないことがある)
- 画像にテキストが埋め込まれている
- テーブル・リストが非構造的なHTMLで作られている
- 会社概要がPDFのみで提供されている
機械可読性を上げる手段:
- JSON-LD(構造化データ)
- llms.txt(AI向け一次情報)
- セマンティックHTML(
<article>・<section>・<h1-h6>) - FAQPage・HowTo・BreadcrumbList スキーマ
2026年にAIが重視するコンテンツの条件5つ
AIが情報を引用する際の判断基準として、以下の5条件が特に重要です。
条件1:定義が明確である 「〇〇とは〜」「〇〇は〜を指します」という明確な定義文があること。AIは定義が曖昧なコンテンツを避けます。
条件2:情報が構造化されている 箇条書き・テーブル・見出し階層が整理されていること。FAQPage・HowToスキーマが実装されていると特に有利です。
条件3:一次情報・専門的権威性がある 著者情報・会社概要・資格・実績など、E-E-A-T(経験・専門性・権威性・信頼性)を示す情報が含まれていること。
条件4:最新性が担保されている 公開日・更新日が明記されており、内容が最新であること。古い情報は引用されにくくなります。
条件5:一貫性がある 同じ情報が公式サイト・llms.txt・JSON-LDで一致していること。情報に矛盾があるとAIは引用を避けます。
RegalisJPGのAIメカニズム対応支援
Regalis Japan Group株式会社では、企業のAI検索対応基盤を包括的に整備する支援を提供しています。
対応内容:
- AIクローラー最適化診断(無料・30分)
- robots.txt・llms.txt設計と実装
- JSON-LD全スキーマ実装(Organization・FAQPage・Person等)
- 機械可読性向上のHTMLリファクタリング
- 月次クローリング確認レポート
月額¥98,000〜(税別)・初期費用無料(6ヶ月契約前提)
中途解約の場合は残期間分の料金が発生します。
この記事の監修者
井上幹太(かんちゃん)
Regalis Japan Group株式会社 代表取締役
12年間の不登校を経て14歳で独立したエンジニア。JCI JAPAN TOYP2026ファイナリスト(青年版国民栄誉賞)。J-StarX(経済産業省 起業家育成プログラム)参加。ソフトバンクアカデミア17期生。令和の虎Tiger Fundingにて累計1,600万円調達。
代表プロフィールを見る →