搜索引擎的排名机制

    经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了,用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的,
    1、搜索词处理
    搜索引擎接收到用户输入的搜索词后,需对搜索词估一些处理,才能进入排名过程。搜索词处理包括以下几方面:
    (1)中文分词,与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。
    (2)去停止词,和索引时一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度地提高排名相关性及效率
    (3)指令处理。查询词完成分词后,搜索引擎的默认处理方式是在关键词之间使用“与”逻辑。也就是说用户搜索“减肥方法”时。程序分词为“减肥”和“方法”两个词。搜索引擎排序时默认认为。用户寻找的是即包含“减肥”也包含“方法”的页面。只包含“减肥”不包含“方法”,彧者只包含“方法”不包含“减肥”的页面,被认为是不符合搜索条件的。当然,这只是极为简化的为了说明原理方法,实际上我们还是会看到只包含一部分关键词的搜索结果的、
    另外用户输入的查询词还可能包含一些高级搜索指令。如:加号。减号等,搜索引擎都需要做出识别和相应处理。有关高级搜索指令。后面还有详细说明。
    (4)拼写错误矫正,用户如果输入了明显错误彧英文单词拼错,搜索引擎会提示用户正解的用字彧拼法.如下图:
怎么学习seo技术
    (5)整合搜索触发,某些搜索词会触发整合搜索,比如明星如姓名就经常触发图片视频内容。当前的热门话题又容易触发资讯内容,哪些词触发哪些整合搜索,也需要在搜索词处理阶段计算。

  2、文件区配

           搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出所有关键词的文件,在索引部他提到的倒排索引使得文件匹配能够快速完成。
           如下图所示:
            
          假设用户搜索“关键词2 关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”。就能找到分别包含有这两个词的所有页面。经过简单计算就能找出即包括“关键词2”也包含“关键词7”的所有页面:文件1和文件6
   3、初始子集的选择
找到包含所有关键词的匹配文件后(上千万个页面),还不能进行相关性计算,实际上用户是不需要知道所有匹配到的页面的。绝大部分用户也只会看前20名,也就是前两页,搜索引擎只要计算最重要的一部分就可以了,常用搜索引擎的人都会注意到,结果页面通常最多显示100个,用户点击搜索结果页面底部的“下一页”链接。最多也只能看到第100页,也就是1000个结果。所以搜索引擎只计算前1000个结果的相关性,就能满足要求。但问题在于,还没有计算相关性时,搜索引擎又怎么知道1000个文件是最相关的呢?所以用于最后相关性计算初始页面子集的选择。必须依靠其他特征而不是相关性,不过可以肯定的是,当匹配页面数很大时,搜索引擎不会对这么多页面进行计算,而必须选择出页面权重较高的一个子集再对子集中的页面进行相关性计算。
   4、相关性计算

   (1)关键词常用程度,经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同,越常用的词对搜索词的意义贡献越小。起不常用的词对搜索词的意义越大。例:“我们冥王星”。“我们”这个词常用程度非常高。在很多页面上会出现,它对“我们冥王星”这个搜索词的识别程度和意义相关度贡献就很小,找出那些包含“我们”这个词的页面,对搜索排名相关性几乎没有什么影响。有太多页面包含“我们”。而“冥王星”常用程度比较低。对“我们冥王星”这个词意义贡献要大得多,那些包含“冥王星”这个词的页面,对“我们冥王星”这个搜索词会更为相关
常用词的极致就是停止词,对页面意义完全没有影响。搜索引擎是根据常用程度进行加权。不常用的词加权系数高。常用词系数低,排名算法对不常用的词给予更多的关注。
   假设:A B 两个页面都各出现“我们”及“冥王星”,但是“我们”这个词在A页面出理于普通文字中,“冥王星”出现在A页面标题中。B页面正相反。那么针对“我们冥王星”这个搜索词,A页面将更相关。
  (2)词频及密度。一搬认为在没有关键堆积的情况下,,搜索词在页面中出现的次数多。密度越高,说明页面与搜索越相关,当然这只是一个大致规律。实际不是这样。所以相关性计算还有其它因素。出现频率及密度只是因素的一部分。而且重要程度越来越低。
  (3)关键词位置及形式。就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。关键词出现在比较重要的位置,如:标题。黑体。H1 等。说明页面相关键词越相关,这一部分就是页面SEO所要解决的。
  (4)关键词距离。切分后的关键词完整匹配地出现。说明与搜索词最相关,比如搜索“减肥方法”时,页面上连续完整出现“减肥方法”四个字,是最相关的。如果“减肥”和“方法”两个词没有连续匹配出现。出现的距离近一些,也被搜索引擎认为相关性稍微大一些。
  (5)链接分析及页面权重,页面与页面之间的链接和权重关系也影响关键词的相关性。其中最重要的是锚文本。页面有越多以搜索词为锚文本的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的主题。锚文本周围的文字等。
   5、排名过滤及调整
   选出匹配文件子集,计算相关性后,大体排名就已经确定了,之后搜索引擎可能还有一些过滤算法,对排名进行微调。其中最主要的是过滤就是对通过作弊行为使页面排到前面进行施加惩罚。
   6、排名显示
所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上,有时搜索引擎需要动态生成页面摘要。而不是调用页面本身的说明标签。
   7、搜索缓存
   如果每次搜索都重新处理排名可以说是很大的浪费。搜索引擎会把最常见的搜索词存入缓存。用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大提高了排名效率。缩短了搜索反应时间。
   8、查询及点击日志
   搜索用户的IP地址。搜索的关键词。搜索时间。以及点击哪些结果页面。搜索引擎都记录形成日志。这些有点对判决结果质量、调整算法预期趋势等都有重要意义。
   搜索引擎还在不停优化算法,优化数据库格式。不同搜索引擎的工作步骤也会有差别,但大致相同。在过去几年及可以预其的未来几年,都不会有实质性的改变.

请尊重我们的辛苦付出,未经允许,请不要转载SEO自学网的文章!
上一篇:通过SEO网站优化,企业如何提高品牌的影响力?
下一篇:链接处理及李彦宏超链分析专利