搜索引擎与抓取索引背后的原理

- 编辑:小平SEO -

搜索引擎与抓取索引背后的原理

蜘蛛抓取流程

1、抓取网页

(1)蜘蛛

爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多的网页。(网页快照)

(2)蜘蛛Spider

百度蜘蛛:Baiduspider

谷歌机器人:Goolebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

有道蜘蛛:YoudaoBot

搜狗蜘蛛:Sogou New Spider

(3)抓取规则:通过链接抓取

①深度优先抓取

②广度优先抓取

(4)抓取的内容

①链接

②文字

③图片

④视频/flash

⑤js

⑥iframe框架

<1>百度地图

<2>尽量不用

不识别

(5)影响抓取的因素:

①需要权限(登录,权限)

②网站打不开

<1>服务器(空间主机)不稳定

<2>404死链

<3>网站被黑

2、处理网页(过滤)

(1)临时数据库:暂时存放抓取回来的网页

(2)筛选过滤:互联网大量的无价值的页面,死链接,欺骗页面(低质量页面)

节省搜索引擎工作时间,服务器资源

(3)索引

①质量较高的页面(百度站长平台)

②查看索引量-百度搜索资源平台

(4)收录

①平时大家所说的【收录】约等于索引

②单个页面-百度一下页面网址

③整个网站:site:域名

④注意

索引量大于收录:一般情况,索引量大于收录,特别是新站

索引量小于收录:索引量小于收录,数据不准,多个快照

3、百度官方说法

(1)收录:页面被Baiduspider发现,分析过

(2)索引:Baiduspider经初步分析后认为有意义的,最建库处理

4、搜索引擎排名的流程

(1)抓取→临时数据库→筛选→索引→收录→提供检索服务(排名)

(2)排序规则:搜索引擎算法

(3)排名建立在基础的优化上

①网站定位

②网站TDK

③网站布局

④网站内容

⑤用户数据

⑥外链推广

(4)影响搜索结果排序的因素

①相关性

②权威性

③时效性

④重要性

⑤丰富性

⑥受欢迎程度

你会喜欢下面的文章? You'll like the following article.