robots.txt を使用して URL をブロックする
robots.txt
ファイルはサイトのルートに配置するファイルで、検索エンジンのクローラにアクセスされたくないサイトのコンテンツを指定します。このファイルでは、Robots Exclusion Standard(数種類のコマンドを使用できるプロトコル)を使用します。このプロトコルでは、項目別やウェブクローラ(モバイル クローラまたはデスクトップ クローラなど)別にサイトへのアクセスを指定できます。
robots.txt
ファイルが必要になるのは、Google などの検索エンジンのインデックスに登録したくないコンテンツがある場合のみです。
サイトの中で Google のクローラがアクセスできるようになっている URL とアクセスできないようになっている URL を確認するには、robots.txt テスターをお試しください。
robots.txt の限界を理解する
robots.txt
を作成する前に、URL をブロックする手段として robots.txt を使用した場合のリスクを理解する必要があります。他の方法で URL がウェブで見つからないようにすることを検討することが必要になる場合もあります。
-
robots.txt の指示はディレクティブのみ
robots.txt
ファイル内の指示は、サイトにアクセスするクローラの動作に対し強制力はなく、サイトにアクセスするクローラへのディレクティブとして機能します。Googlebot などの信頼できるウェブクローラはrobots.txt
ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を継続して保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。 -
クローラによって構文解釈が異なる
信頼できるウェブクローラはrobots.txt
ファイルのディレクティブに従いますが、各クローラでディレクティブの解釈が異なる可能性があります。各種のロボットに対応する適切な構文を知る必要があります。ロボットによっては、一部の指示を理解しない可能性があります。 -
robots.txt のディレクティブでは他のサイトで参照されている自サイトの URL をブロックできない
Google のクローラがrobots.txt
でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロックされている URL をウェブ上の他の場所で検出してインデックスに登録する可能性はあります。その結果、URL アドレスや、場合によっては、サイトに対するリンクのアンカーテキストといった他の公開情報が、Google の検索結果に表示される可能性があります。robots.txt
と併せて、サーバー上のファイルをパスワードで保護する方法やインデックス ディレクティブのメタタグを HTML に挿入する方法など、他の URL ブロック方法も使用することで、URL が確実に検索結果に表示されないようにすることができます。