robots.txt

  • 公開日:2025.04.10
  • 更新日:2025.04.15
  • 用語集
  • X
  • Facebook
  • LINE

robots.txt とは、ウェブサイトのルートディレクトリ(例: https://example.com/robots.txt)に設置するテキストファイルのことです。このファイルの主な目的は、ウェブサイトを訪れる検索エンジンクローラー(ロボットボット)に対して、「どのディレクトリやファイルにアクセス(クロール)して良いか」「どのディレクトリやファイルにはアクセスしないでほしいか」というルールを伝えることです。ウェブサイト運営者がクローラーの動きを制御するための基本的な手段の一つです。

robots.txtファイルは、特定の書式(Robots Exclusion Protocol)に従って記述されます。主な記述ルールは以下の通りです。

  • User-agent: ルールを適用するクローラーの種類を指定します。例えば、User-agent: Googlebot と書けばGoogleのクローラーに対する指示、User-agent: と書けばすべてのクローラーに対する指示となります。
  • Disallow: クロールを許可「しない」ディレクトリやファイルを指定します。例えば、Disallow: /private/ と書けば、/private/ ディレクトリ以下のすべてのファイルへのクロールを拒否します。ファイル単位で指定することも可能です(例: Disallow: /private/document.pdf)。
  • Allow: (Disallowで指定されたディレクトリ内の一部など)クロールを許可「する」ディレクトリやファイルを指定します。Disallowよりも優先される場合が多いです(クローラーの実装による)。例えば、/private/ をDisallowしつつ、その中の /private/public/ ディレクトリだけはクロールを許可したい場合に Allow: /private/public/ と記述します。
  • Sitemap: XMLサイトマップURLを記述することで、クローラーにサイトマップの場所を知らせ、サイト全体の構造やURLリストの発見を促します。(例: Sitemap: https://example.com/sitemap.xml)

robots.txtを適切に設定することには、以下のようなSEO上のメリットがあります。

  • クロールバジェットの最適化: サイト内で重要度の低いページ(例: 検索結果ページ、パラメータ付きURL、会員専用ページ、テスト用ページなど)へのクロールを制限することで、クローラーのリソース(クロールバジェット)を、インデックスさせたい重要なページ(例: 主要なコンテンツページ、サービスページ)に集中させることができます。これにより、サイト全体のクローラビリティが向上し、重要な情報のインデックスが促進される可能性があります。
  • サーバー負荷の軽減: 不要なページへのクロールを減らすことで、サーバーへの負荷を軽減する効果も期待できます。

ただし、robots.txtの使用には注意点もあります。

  • インデックス削除の保証ではない: Disallow で指定しても、それはあくまでクローラーへの「お願い」であり、クロールを100%防ぐものではありません。また、他のサイトからリンクされている場合など、クロールされなくてもページがインデックスされてしまう可能性があります。ページを確実にインデックスから除外したい場合は、noindexメタタグを使用する必要があります。
  • 設定ミスのリスク: 記述を間違えると、インデックスさせたい重要なページへのクロールまで拒否してしまい、サイト全体のSEOに深刻な悪影響を与える可能性があります。例えば、Disallow: / と記述すると、サイト全体のクロールを拒否してしまいます。
  • 機密情報の保護には不向き: robots.txtは誰でも閲覧可能なファイルであるため、クロールを防ぎたいディレクトリ名を記述すると、逆にその存在を公にしてしまうことになります。機密情報を含むページは、パスワード保護など別の方法でアクセスを制限するべきです。

robots.txtは、サイトのクローラビリティを管理するための重要なツールですが、その仕組みと影響を正しく理解し、慎重に設定・管理する必要があります。Google Search Consoleのrobots.txtテスターなどを利用して、設定が意図通りに機能しているかを確認することが推奨されます。

  • X
  • Facebook
  • LINE
ご相談お待ちしております

お電話受付時間平日:10時~18時

0120-963-404