网站 Robots 文件是一个文本文件,一般以 robots.txt 形式,存放在网站
根
目录下。如图 5.7
图 5.7
搜索引擎在抓取网站内容时,都会先在根目录寻找是否有 robots.txt 文件,
因为 Robots 就是网站和搜索引擎的一个协议。网站不希望搜索引擎抓取的内
容,搜索引擎是不会抓取的,而网站需要抓取的内容可以写出来,也可以不写。
User-agent:该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,
则该协议对任何搜索引擎都有效。不同的搜索引擎名称也是不一样的。
Disallow:拒绝收录,阻止搜索引擎蜘蛛抓取的内容。
Allow:允许收录,即同意搜索引擎蜘蛛检索和收录的内容。
举例:
网站目录下所有文件均能被所有搜索引擎蜘蛛访问
User-agent: *
Disallow:
禁止所有搜索引擎蜘蛛访问网站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛访问网站的几个目录
User-agent: *
Disallow: /a/
Disallow: /b/
只允许某个搜索引擎蜘蛛访问(百度)
User-agent: baiduspider
Disallow: