TF-IDF关键词加权算法与权重提升
- 编辑:小平SEO -TF-IDF关键词加权算法与权重提升
一、本节知识点
1、了解百度一些算法
2、什么是TF-IDF算法
3、算法与SEO应用
二、概念解析
1、TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
2、TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
3、TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
4、如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。
5、对TFIDF算法的假设:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。
6、一个词语在一篇文章中出现次数越多,同时在所有的文档中出现次数越少,越能够代表该文章相关程度的度量或评级。
7、相关知识阅读
(1)tf-idf是什么意思? http://www.tfidf.com/
(2)TF-IDF算法原理解释资料 https://bbs.moonseo.cn/thread-89998-1-1.html
(3)什么是TF-IDF及公式 https://bbs.moonseo.cn/thread-90000-1-1.html
(4)页面优化与布局设计示例图 https://bbs.moonseo.cn/thread-90011-1-1.html
三、TF-IDF加权算法
1、计算词频




2、逆文档频率


3、计算TF-IDF:词频(TF)× 逆文档频率(IDF)


4、简单总结:词频越高,相关性越高;越常见的词,对相关贡献越小。
5、在线中文分词,关键词提取,文章关键词提取:http://life.chacuo.net/convertexportword
6、百度中文词法分析(分词+词性+专名)系统
https://github.com/baidu/lac
7、百度FAQ自动问答系统
https://github.com/baidu/AnyQ
8、百度情感识别系统
https://github.com/baidu/Senta
四、什么是权重?
1、权重值哪里来的?
2、百度官方态度
(1)世上本没有百度pagerank和权重
(2)https://ziyuan.baidu.com/wiki/261/
(3)权重是如何计算的,可以站长工具查看一下
http://rank.chinaz.com/
(4)百度权重值截图


五、百度算法与SEO应用
1、词频密度问题:重要,但不要刻意;设计出更多的词频内容
2、关键词相关程度:越相关的内容评分越高,不能刻意堆积
3、切记,关键词不能重复堆砌
4、文章标题要遵循搜索需求
5、内容尽可能完善与标题相关匹配
6、核心词出现的位置,顺序等
六、PageRank算法简述
1、合理的链接布局
2、内、外链的合理性,多样化
3、链接的相关性
4、网站核心相近
七、提升权重因素
1、关键词的指数
(1)搜索指数越高,权重越高,流量越高
(2)关键词百度指数越高,竞争越大
2、关键词流量
(1)权重随着流量增大而增大
(2)长尾词:大量的长尾词,行业词
3、关键词数量的多少:自然搜索关键词越多,权重会积累
八、页面优化与布局设计
1、搜索需求相关的文章标题
2、时间因子,提升收录与抓取
3、开头强调核心思想,进行简单概括
4、细分段落
5、做好正文的段落标题,正文要与主题相关,突出重点内容话题
6、有引荐需求,适合的内、外链引导
7、不要干扰用户阅读,JS、广告、弹窗等
8、有相关性的相关推荐
十、PageRank算法的简单举例
1、Google PageRank算法的思想精华在于:将一个网页级别、重要性的排序问题转化成了一个公共参与,以群体民主投票的方式求解的问题,网页之间的链接即被认为是投票行为。同时,各个站点投票的权重不同,重要的网站投票具有较大的分量,而该网站是否重要的标准还需要依据其PageRank值.