robots.txt协议的正确写法
- 编辑:小平SEO -robots.txt协议的正确写法
一、Robots文件
1、什么是Robots文件:Robots文件又称为爬虫协议,机器人协议 。
通过Robots协议告诉蜘蛛哪些页面可以抓取,哪些页面不可以抓取
注意:
(1)如果你不想让蜘蛛抓取某个目录或页面,才有必要创建robots.txt文件
(2)如果你希望蜘蛛抓取网站上的所有内容,则无需建立robots .txt文件
2、Robots文件存放位置:Robots.txt文件放置在网站根目录下,便于搜索引擎爬虫第一时间抓取该文件。
Robots规则如何书写:
(1)User-agent——用来描述搜索引擎robot的名字
(2)Disallow——用来描述不希望被访问的一组URL
(3)Allow——用来描述希望被访问的一组URL
(4)*——匹配o或多个任意字符
(5)$匹配行结束符
二、robots规则
例如:仅允许baidu及360搜索引擎爬虫访问网站内容,并且禁止所有图片和php网页内容
User-agent:Baiduspider
Allow:/
Disallow:/*.jpg$
Disalllow:/*.jpeg$
Disalllow:/*.png$
Disalllow:/*.gif$
Disallow:/*.bmp$