搜索大法——浅谈搜索引擎
二、搜索引擎是如何工作的? 搜索引擎有三个主要的基本部分。 1、搜索引擎蜘蛛 搜索引擎首先利用的是一种俗称蜘蛛(Spider)或爬虫(Crawler)的软件。搜索引擎蜘蛛访问到一个页面,读取它,然后跟随这个页面链接到这个站点的其他页面,这就是人们所说的站点被套住了或者被爬过了。蜘蛛会按照固定的时间不断的回来访问这个站点,如每月或每两个月,以便查看页面的变化。 2、索引 蜘蛛所找到的每一个页面放入搜索引擎的第二部分--索引。索引也可以说是目录册,就像一本巨大的书,书中包含了蜘蛛所找到的每个Web页的拷贝。如果Web页改变了,这本书当然也会更新。但有时蜘蛛发现了新的Web页和Web页的变化,并不是马上加到索引中去,当中间隔一段时间,就是说一个Web页被爬过了,但却不能被索引,直到这个Web页被加到了索引里才可用于搜索引擎的搜索。 3、分析软件 搜索引擎分析软件是一个搜索引擎的第三部分。这个程序详细审查记录在索引中的成百上亿的Web页,找出与搜索要求相匹配的那些,并按他认为最合适的相关性排列出列表,呈现在冲浪者的面前。 本文摘自ChinaByte网络学院,原作:唐进华 |