搜索引擎蜘蛛运行规则解析

- 编辑:小平SEO -

搜索引擎蜘蛛运行规则解析

一、数据处理
1、提取关键词
(1)代码去噪
(2)去除非正文关键词:导航栏、页面共享的公共区域
(3)去除停用词:“的”、“在”等介词或连词
 
 
2、消除重复与转载网页
 
 
3、重要信息分析
(1)H标签
(2)strong标签
(3)meta标签
(4)关键词密度
(5)内链锚文本
(6)黑体
 
 
4、网页重要度分析:通过指向该网页的外链锚文本所传递的权重数值
,来为此网页确定一个权重数值,同时结合上述的“重要信息分析”,从而确定此网页的关键词集合中每个关键词所具备的排名系数。
 
(1)网页:转载、流量、时间、更新、链入、br-权重、专业化(关键词单一)、重要标签的应用、关键词密度、网页层级、网页架构、文件形式
 
(2)网站:所有内容、架构、相似度、相关性
 
 
 
5、正向索引
 
 
6、倒排索引

你会喜欢下面的文章? You'll like the following article.