搜索引擎预处理机制

首先提前祝各同仁们happy new year,在即将迎来2011年的最后一天,利用这今年的最后一天,来给大家分享一个话题:关于搜索引擎预 处理机制,可能一些seo新手对这个词有点陌生,没什么概念,其实很简单,就是网站有千千万,页面达到亿级别的,而搜索引擎却能通过一个简短的词就能把搜 索结果快速的传递到用户面前,为什么这么快呢?难道真是它的电脑或者服务器很强吗?其实它是采用了一种很巧妙的办法,因为它先有预处理机制在里面,通过预 处理之后才能快速的把用户想要找的内容呈现在他面前,那预处理包括哪些内容呢,我们来简单的跟大家说下:

一、提取文字

预处理要做的第一件事情就是抓取文字,在提取文字这一部分是非常关键的,意思也很简单,因为文字一般都是有一个相关性的,就是把关键文字提取出来,提取的文字内容有文本、meta标签,这两个是我们通过表面现象可以看得到的,另外还有关键和描述(这两个需要通过页面源代码查看),还有alt属性(alt属性原本是看不到的,鼠标移上去会显示)。还有文本,比如像做过flash站优化的人知道,你可以将它的内容提取出来,作为替代内容,这些都是可以被搜索引擎识别的。

二、中文分词

抓取好文字之后我们要进行中文分词,也就是我们经常提到的中文分词技术,为了方便大家更好的理解,我们举例来说,大家先打开baidu和goole,然后分别在里面搜索“夸张大千奖”,我们先看百度页面的搜索情况:

 

通过上图我们可以看到整个页面的标红的字体,我们可以明显的看到“张大千”这三个字被拧出来了,总共五个字,因为张大千是个人名,所以它优先被拧了出来,然后这个词就变成三个词组,分别是“夸”。“张大千”。“奖”。这是百度的分词手法,我们再来看谷歌是怎么分的:

我们看第一条搜索结果,“夸张的图,大千世界无奇不有啊”,为什么会这样呢?其实谷歌和百度相比,它少了一个专有词典,匹配方式不一样,不同的搜索 引擎,它的分词规律不一样,所以说针对不同搜索引擎关键词优化,我们应该要注意关键词应该怎么写会比较稳妥。可以根据自身情况,做谷歌要怎么写,做百度又 要怎么写,而且我们要知道,我们如何利用分词技术来做到不管是关键词还是内容等等都可尽量匹配。如果连内容都匹配不了,那关键词又怎么能上去呢?

2、匹配方法

关于匹配方法我们简单概括下:

A.正向匹配:因为我们一般的阅读方式是从左往右,从左到右叫正向匹配,比如说“中华人民共和国成立于1949年”因为它是一个完整词,如果是正向匹配,那么就应该这样分:“中华”“人民”“共和”等。

B.逆向匹配:顾名思义,就是从后面往前匹配。

c.最大匹配:比如说“中华人民共和国成立于1949年”,如果是最大匹配的话,可以划分成“中华人民共和国”为一个词组,这就是最大匹配。

D. 最小匹配:它就可是把“中华人民共和国”划分成“中华”“人民”“”共和”“国”。这样算起来总共有四种匹配方式:正向匹配、逆向匹配、最大匹配、最小匹 配。可以两两结合结合成“正向最大匹配”“正向最小匹配”“逆向最大匹配”“逆向最小匹配”,这是百度和谷歌通用的匹配方法。那说到这里,可能有人会问 了:那我怎么知道它是给我正向匹配还是反向匹配等,其实我想说的是,这个没有一个定死的规律的,我们只要记住一点:一个好的搜索引擎,在分词系统关键就看 两点:

A:消除歧义能力,也就是说你搜了一个词,搜索出来的结果更加精准、完整;

B:它是否能识别人名、地名和机构名,也就是一些未登陆的词,比如比较流行的口头语,搜索次数多了,它会进行一个统计,统计的结果和用户想了解的内容匹配度高,具备这两点,就是好的分词系统。

搜索引擎的分词能让我们的标题以及内容相关性更高,和需要优化的词匹配度更高,这是分词它所能承载的作用,不用的搜索引擎的分词原理不一样,所以需要我们更加系统的来学习,仅仅靠这篇文章是解释不完的,关键是要有这个思路,结合这个思路去仔细观察从而得出结论。

请尊重我们的辛苦付出,未经允许,请不要转载SEO自学网的文章!
上一篇:搜索引擎发展史
下一篇:Hilltop算法