もし、自分のサイト内に公にしたくないページがあったり、サイトそのものを公にしたくなくても、Google等のロボット型サーチエンジンは自動的に情報を収集するので、検索エンジンで他ユーザーが検索した時にヒットしてしまう場合があります。これを回避するためには、下記のMETAタグを<head></head>の間に記述すると、自分のサイトの情報をクロール(自動収集)させないようにする事が出来ます。
<meta name="Robots" content="noindex,nofollow">
「noindex」は対象のページ、「nofollow」は対象のページからのリンク先のページを指します。どちらか一つを指定する事も出来ます。
逆に、クロールして欲しい場合は、以下の様になります。
<meta name="Robots" content="index,follow">
他に、テキストファイルを自サーバ内にアップロードし、クロールを遮断する方法もあります。まず、テキストファイルを作成します。ファイルには以下の様に記述します。
例:1)全てのロボットに対して、サイト内の全てのファイルをクロールさせたくない場合
User-agent: *
Disallow: /
例:2)Googleだけ、/secretのフォルダ及びフォルダ内のファイルをクロールさせたくない場合
User-agent: googlebot
Disallow: /secret/
テキストファイル名は「robots.txt」にして保存し、index.htmlと同じ階層にアップロードします。
詳細はGoogleのサイトにも掲載されています。
http://www.google.co.jp/webmasters/remove.html

コメントする