搜索引擎与抓取索引背后的原理
- 编辑:小平SEO -搜索引擎与抓取索引背后的原理
蜘蛛抓取流程
1、抓取网页
(1)蜘蛛
爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多的网页。(网页快照)
(2)蜘蛛Spider
百度蜘蛛:Baiduspider
谷歌机器人:Goolebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
搜狗蜘蛛:Sogou New Spider
(3)抓取规则:通过链接抓取
①深度优先抓取
②广度优先抓取
(4)抓取的内容
①链接
②文字
③图片
④视频/flash
⑤js
⑥iframe框架
<1>百度地图
<2>尽量不用
不识别
(5)影响抓取的因素:
①需要权限(登录,权限)
②网站打不开
<1>服务器(空间主机)不稳定
<2>404死链
<3>网站被黑
2、处理网页(过滤)
(1)临时数据库:暂时存放抓取回来的网页
(2)筛选过滤:互联网大量的无价值的页面,死链接,欺骗页面(低质量页面)
节省搜索引擎工作时间,服务器资源
(3)索引
①质量较高的页面(百度站长平台)
②查看索引量-百度搜索资源平台
(4)收录
①平时大家所说的【收录】约等于索引
②单个页面-百度一下页面网址
③整个网站:site:域名
④注意
索引量大于收录:一般情况,索引量大于收录,特别是新站
索引量小于收录:索引量小于收录,数据不准,多个快照
3、百度官方说法
(1)收录:页面被Baiduspider发现,分析过
(2)索引:Baiduspider经初步分析后认为有意义的,最建库处理
4、搜索引擎排名的流程
(1)抓取→临时数据库→筛选→索引→收录→提供检索服务(排名)
(2)排序规则:搜索引擎算法
(3)排名建立在基础的优化上
①网站定位
②网站TDK
③网站布局
④网站内容
⑤用户数据
⑥外链推广
(4)影响搜索结果排序的因素
①相关性
②权威性
③时效性
④重要性
⑤丰富性
⑥受欢迎程度