robots.txtとsitemap.xmlの役割
robots.txtは「巡回してほしくない場所」をクローラーに伝えるファイル、 sitemap.xmlは「巡回してほしいページの一覧」を伝えるファイルです。 対になる存在で、どちらも検索エンジンへの案内図として機能します。 書式はシンプルですが、1文字のミスで意図と逆の挙動(全ページ拒否など)になり得るため、 フォームから機械的に生成するのが安全です。
このツールの使い方
- robots.txtタブ:基本ルールを3つのテンプレートから選び、必要ならAIクローラー拒否とサイトマップURLを追加します。
- sitemap.xmlタブ:掲載したいURLを1行1件で貼り付けます。更新日・頻度・優先度は任意です。
- ダウンロードして設置:どちらもサイトのルート直下にアップロードします。
- Search Consoleに登録:sitemap.xmlは「サイトマップ」メニューから送信すると確実です。
AIクローラー拒否の考え方
2023年以降、コンテンツをAIの学習に使われたくないサイト向けに、各社が拒否用のクローラー名を公開しています。 本ツールではGPTBot(OpenAI)・ClaudeBot(Anthropic)・Google-Extended(Gemini)・CCBot(Common Crawl) などの主要クローラーをチェックボックスで選べます。注意点は2つあります。 ①robots.txtによる拒否は紳士協定であり強制力はないこと、 ②Google-Extendedを拒否しても通常のGoogle検索の掲載には影響しないこと(検索用クローラーは別)です。
よくある間違い
- 「Disallow: /」のまま公開:ステージング用の全拒否設定を本番に持ち込むと、サイト全体がクロールされなくなります。公開時は必ず確認しましょう。
- 検索結果からの削除目的でDisallow:クロール拒否とインデックス削除は別物です(FAQ参照)。
- robots.txtをサブディレクトリに設置:ルート直下以外は認識されません。
- sitemap.xmlに重複・リダイレクトURLを入れる:正規URL(canonical)だけを入れるのが原則です。
よくある質問(FAQ)
robots.txtとは何ですか?どこに置きますか?
検索エンジンなどのクローラーに「どのページを巡回してよいか」を伝えるテキストファイルです。必ずサイトのルート直下(https://example.com/robots.txt)に設置します。サブディレクトリに置いても認識されません。
AIクローラーを拒否するとどうなりますか?
GPTBotやClaudeBotなどのAI学習用クローラーに「収集しないでほしい」と伝えられます。主要なAI企業のクローラーはrobots.txtを尊重すると表明していますが、強制力のある仕組みではなく、従うかはクローラー側の自主性に依存します。また過去に収集済みのデータが消えるわけではありません。
Disallowを書けば検索結果から消えますか?
いいえ。Disallowは「クロール(巡回)の拒否」であり、インデックス削除ではありません。他サイトからリンクされていればURLが検索結果に出続けることがあります。検索結果から確実に消したい場合は、クロールを許可した上でnoindexメタタグを使うか、Search Consoleの削除ツールを使います。
sitemap.xmlは必ず必要ですか?
小規模サイトで内部リンクが整理されていれば必須ではありません。ただしページ数が多いサイト・新しいサイト・更新頻度が高いサイトでは、クローラーへの発見の手助けとして効果的です。作成したらSearch Consoleの「サイトマップ」メニューから送信しましょう。
sitemap.xmlのサイズ制限はありますか?
1ファイルあたり50,000URL・50MB(非圧縮)までです。超える場合は複数のサイトマップに分割し、サイトマップインデックスでまとめます。本ツールは中小規模サイト向けで、1ファイル分を生成します。
このツールは無料ですか?入力した内容は送信されますか?
完全無料・登録不要です。生成はすべてブラウザ内で行われ、入力したURLがサーバーに送信されることはありません。
正規URLの整理には canonical・hreflangタグ生成ツール、検索結果での見え方の調整には メタタグ・OGP生成ツール もご利用ください。