搜索引擎的索引机制是怎样工作的

对于SEO优化站长来说,搜索引擎的索引极大的关乎着网站的排名。之前有介绍了关于搜索引擎的爬行与抓取的工作模式,本文主要介绍一下搜索引擎如何进行索引。

在蜘蛛爬行和抓取后,百度会建立一个庞大的数据库,然后将这些页面的信息进行提取处理,也就是我们常说的快照。除了会显示常规的文字信息外,还会包括一些HTML中的标签,如meta标签,TDK标签,flash的替代文本,锚文本,或者图片的alt属性等文字信息。

将这些信息处理完毕后,会进行下一个阶段,那就是搜索引擎的分词。

每个搜索引擎都有它自己的分词技术,不可否认,百度在这方面是绝对的领先。对于网页上的这些文字进行细节处理。比如可以将瘦大腿方法会分成瘦大腿,方法两个部分。通常分词的方法包括词典和统计,词典很好理解,而统计主要是将大量的文本进行计算,计算每个字与字之间出现的概率,概率大就表示成词的机会大。

当然,汉语的助词比较多,比如的,了,呀这样的。搜索引擎会对这些词进行删除,从而能够提高计算效率。

此外,在网站页面上,会有一些重复出现的内容,比如导航,广告这样的内容,而这个对于页面属性的显示意义不大,搜索引擎也会对这些内容进行筛选,显示最终的文字部分。在这些文字筛选出来后,搜索引擎还会将这些信息进行对比,如果重复就会删除。

通过这几个步骤,搜索引擎就会建立常用的索引库,这时候就是我们通过一些站长工具查看到手索引量。而对于搜索引擎内部的索引,还分为两个阶段,即正向索引,倒序索引。所谓正向索引主要是将收录的页面网址进行记录,然后根据这些内容建立数据库。

但是这时候并不能进行排名,还需要辅助倒序索引,这些就是将关键词为主要信息,将所有的包含关键词的URL建立索引数据库。

至此,搜索引擎再处理一些特殊文件,整个索引阶段就完成。通过这样的一个步骤,我们不难发现,在做SEO优化过程中,我们在文章中加一些简单的助词或者改一些小部分的内容进行修改并不能被搜索引擎抓取。

blueHost中文站为了让用户享受更好的体验,对目前所有的bluehost虚拟主机,包括云虚拟主机,都具备了免费赠送首年域名,免费赠送云备份的功能。以及Bluehost美国服务器、美国站群服务器进行流量升级和线路的优化,BlueHost美国站群服务器,现在首单700元每月,不限购买周期,买3年也可以享受,美国vps主机首年大优惠的活动正在进行中,使用优惠码MDD即可获得。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注