网站优化
当前位置:首页 > 资讯 > 网站优化 >
IDF”算法的的概唐山网站开发念与网站SEO使用
发布日期:2019-10-03 阅读次数: 字体大小:

  SEO“TF-IDF”算法的的概念与网站SEO使用

  TF-IDF是一种核算方法,用以评估一字词关于一个文件集或一个语料库中的其间一份文件的重要水平。字词的重要性随着它在文件中出现的次数成反比添加,但同时会随着它在语料库中出现的频率成正比降落。TF-IDF加权的各种方式常被搜查引擎使用,作为文件与用户查询之间相干水平的衡量或评级。除了TF-IDF以外,因特网上的搜查引擎还会使用依据链接分析的评级方法,以确认文件在搜索效果中出现的秩序。

  “TF-IDF”算法的原理

  TFIDF的首要思想是:假定某个词或短语在一篇文章中出现的频率TF高,并且在其余文章中很少出现,则认为此词或者短语具备很好的类别差异才干,合实用来分类。TFIDF实践上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表明词条在文档d中出现的频率。IDF的首要思想是:假定蕴含词条t的文档越少,也就是n越小,唐山网站建设唐山小程序开发,IDF越大,则阐明词条t具备很好的类别区别才能。

  假定某一类文档C中蕴含词条t的文档数为m,而其它类蕴含t的文档总数为k,显著全副蕴含t的文档数n=m+k,当m大的时候,n也大,依照IDF公式失去的IDF的值会小,就阐明该词条t类别区别才能不强。

  可是实践上,假定一个词条在一个类的文档中频繁出现,则阐明该词条可以很好代表这个类的文本的特色,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特色词以区别与其它类文档。这就是IDF的无余之处. 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以避免它偏差长的文件。(同一个词语在长文件里或者会比短文件有更高的词数,而不管该词语重要与否。)

  “TF-IDF”算法的的概念与网站SEO使用

  一、TF词频的概念与SEO建议

IDF”算法的的概唐山网站开发念与网站SEO利用

  TF是指词频,查询的要害词在文档中出现的次数核算。相干文档是这样引见的,假如查询要害词在同一个文档中出现的次数越多,代表这个要害词越重要,越能代表文档的主题意思,文章主题与要害词意思越靠近,那么做SEO怎么使用这个知识点呢?

  假如有一篇文章的题目是:“SEO服务外包”,从字面上了解,文章首要是以SEO服务为中心,“外包”为拓展词。假如文章内容里SEO服务出现20次,服务出现25次,外包出现10次,唐山微信小程序,依照TF词频的规则,那么SEO服务是文章主题,这个很好理解。

  实践上有些时候写文章时,在意思很明晰的情况下,会省掉主词。比如SEO服务外包价钱、SEO服务外包流程、SEO服务外包公司引见,会缩写成:外包价钱、外包流程、外包公司引见。这样会导致外包出现的次数大于服务,TF词频则会认为外包是主题,出现谬误的判断。

  那既然是这样,做SEO要害词规划的时分,应该要失当思考主要害词的出现频率大于副词。当然搜查引擎判断网页主题有许多维度,这儿只是单从TF词频的视点思考,集体认为这样做会延长搜查引擎判断网页主题的工夫,对SEO来说是无利的。

  第二、怎么快速了解“IDF逆文档频率”

  这个概念假定看文档的话有点难了解,最初笔者看百度百科好几次才了解。触及到杂乱的公式在这儿就不讲,联合TF一同来了解,TF-IDF的意思是,一篇文章中某要害词出现的次数越多,且在搜查引擎的材料库中蕴含该要害词文档数越少,则阐明这个要害词越能代表此网页的主题。

  举个比如来阐明,假如有一篇文章,有两个要害词:“SEO优化”和“SEO服务”,在文章中,这两个要害词出现的材料都是20次,可是在百度的材料库中,蕴含SEO优化的文档总共有一千万个,蕴含SEO服务的文档有五百万个,那么则阐明,SEO服务越能代表这文章的意思。或者搜查引擎材料库中蕴含要害词的文档数量相反,文章中出现次数越多的要害词越能代表网页主题。

  从SEO的层面讲,IDF这个值是主观存在的

  不必去深究,只有了解不同要害词之间的文档数多少就行,以百度为例,搜查任何一个要害词,在搜查框下面会有一个:“百度为您找到相干效果约XXX个”的这样句子,里边的数值可以作为文档数参阅。每个搜查引擎的蕴含要害词的文档数或者不相反,可是全体的相对比例值应该是差不多的。并且随着工夫的推移,文档数也会始终发作扭转。