https://pvcrml.com/
手机站 网站地图 微信:a654321AD QQ:2040768308
女神SEO

分析词频位置加权排序算法

词频位置加权排序算法:是通过关键词的位置和频率进行排序的方法,是搜索引擎最基本的排序算法之一。当用户通过关键字搜索时,当关键字出现在一个网页上的次数越多,位置就越重要时,他们认为网页更符合用户的需求。大量早期搜索引擎(如:Infoseek,Nutch,Excite,Lycos等)都是基于这个算法进行网页搜索排序的,当然,在不同的搜索引擎中具体的排序方法是不同的。

分析词频位置加权排序算法(图1)

词频位置排序原理

该算法以搜索词与网页之间的相关性为排序尺度,而搜索词在网页中的相关性由其在网页中的次数和位置加权计算。在这个算法中,单词对网页的相关性与网页中单词的权重成正比。

关键词对网页的权值可以通过加权词频和位置来获得。当用户搜索关键字时,搜索引擎根据不同网页的搜索词进行排序,即词频位置加权排序算法。

词频加权法

词频加权法有绝对词频加权、相对词频加权、反词频加权、基于词分辨值加权等等。

对于单词搜索引擎和简单的搜索需求,权重值只能通过简单地计算一个词在网页上的频率来确定;对于具有多种逻辑功能的搜索引擎,必须综合其他加权排序方法。因为在使用多个逻辑检索检索时,检索结果与检索中的每个搜索词有关,而每个搜索词在所有网页中的总频率都不同。如果重进行排序,结果将不相关。此时,相对词频加权原理可以用来解决:通过对大量网页的统计,所有网页中频率较高的词的初始值越低;相对而言,在所有网页中频率较低的词给出了较高的权重值。

位置加权法

位置加权主要是通过对网页中不同位置和布局的词给出不同的权重,从而根据权重确定搜索结果和搜索词的相关性。

单词的位置包括:网页标题、网页描述、关键字、文本标题、文本内容、文本链接、alt标识等。

布局包括:字体、字号、加粗强调等。和传统文献一样,出现在标题、文本结尾句等重要位置的词语通常会给出更大的权重。这些不同的标签对应的内容在表达网页主题的能力上存在差异。一般来说,在字符较大、加粗强调的地方,也会给出较大的权值。

实现步调

实现排序算法的基本步骤是:收集网页,分析网页,过滤停止单词,获取关键字(中文自动切割单词),根据关键字的位置和频率加权,用户根据关键字在网页中的权重大小对网页进行排序。

词频位置算法评价

优点

在传统文档检索理论和技术的基础上,采用词频和位置加权算法,具有简单易实现的优点,是搜索引擎早期排名的主要思想,技术发展最成熟。

缺点

词频统计比力适用于文档数据的布局,但网络时代的主要文献是以网页的形式存在的。算法仅按词频和位置信息进行排序,不利用网络中超文本的新特性,可以说是前网络时代的技术。

现在几乎每个人都可以随意在网上发布各种内容。两个词频相同的网页质量差异可以很大,很难保证文档的布局和质量。

许多SEO网页内容的制作人绞尽脑汁,在其页面上堆积关键词,尤其是在重要位置(尤其是)放置主题无关的关键词。用户在浏览网页时根本看不到,但在搜索引擎抓取时却能找到。搜索引擎还研究了各种方法来发现和惩罚(黑帽)SEO)这种作弊行为。

结论:目前的搜索引擎已经开发出了更合理的链接分析算法,但如果仅仅依靠链接分析,主题可能会漂移。即使网页的质量再高,再权威,如果搜索词与网页的相关性不高,对用户来说也是无用的。因此,有必要将链接分析与词频信息相结合,进行综合分析,以获得更好的排序效果。目前,词频位置加权排序算法仍然是许多搜索引擎的核心排序技术。


分析词频位置加权排序算法(图2)

我要优化(加QQ客服第一时间和你对接)

已有 1826 企业通过我们找到了合作项目

联系方式

  1. QQ:2040768308
  1. 微信:a6543218AD

友情链接

首页 |网站地图