robots.txt协议的正确写法

- 编辑:小平SEO -

robots.txt协议的正确写法

一、Robots文件

1、什么是Robots文件:Robots文件又称为爬虫协议,机器人协议 。
通过Robots协议告诉蜘蛛哪些页面可以抓取,哪些页面不可以抓取
注意:

(1)如果你不想让蜘蛛抓取某个目录或页面,才有必要创建robots.txt文件
(2)如果你希望蜘蛛抓取网站上的所有内容,则无需建立robots .txt文件

2、Robots文件存放位置:Robots.txt文件放置在网站根目录下,便于搜索引擎爬虫第一时间抓取该文件。

Robots规则如何书写:

(1)User-agent——用来描述搜索引擎robot的名字
(2)Disallow——用来描述不希望被访问的一组URL
(3)Allow——用来描述希望被访问的一组URL
(4)*——匹配o或多个任意字符
(5)$匹配行结束符



二、robots规则

例如:仅允许baidu及360搜索引擎爬虫访问网站内容,并且禁止所有图片和php网页内容
User-agent:Baiduspider
Allow:/
Disallow:/*.jpg$
Disalllow:/*.jpeg$
Disalllow:/*.png$
Disalllow:/*.gif$
Disallow:/*.bmp$

 

你会喜欢下面的文章? You'll like the following article.