robots.txt协议

robots.txt协议

六月 04, 2022

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。

网站通过robots.txt(爬虫协议)告诉搜索引擎什么文件可以被查看,什么文件不可以

百度官方建议:仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

Robots.txt的作用:

1、可以让蜘蛛更高效的爬行网站;
2、可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题;
3、可以减少蜘蛛爬行无效页面,节省服务器带宽;

robots详解:

1、user-agent

作用:描述蜘蛛的名字
例子:user-agent:*(所有的蜘蛛)
user-agent:googlebot(只允许谷歌蜘蛛爬)

2、disallow

作用:展示不能被蜘蛛爬取的页面或目录
例子:disallow:/(禁止蜘蛛爬取/目录)
disallow:/admin(禁止蜘蛛爬取admin目录)
disallow:/123.html(禁止蜘蛛爬取123页面)

3、allow

作用:展示允许蜘蛛爬取的页面或子目录
例子:allow:/admin/123/(允许蜘蛛爬取admin下的123目录)
allow:/admin/123.html(允许蜘蛛爬取admin目录下的123页面)

*4、速配符“

作用:匹配零个或多个字符
例子:disallow:/test */(拦截所有以test开头的子目录的访问)
disallow:/ ? */(拦截所有对有?的网址的访问)

5、匹配符“$”

作用:匹配url结尾的字符
例子:disallow:/ *.abc $(拦截以.abc结尾的网址)
disallow:/admin/ *.htm $(拦截admin目录下的所有以.htm为结尾的网址)
disallow:/.jpg $(拦截网站下的jpg图片)