蓝海科技—专业、专注、值得信赖

新闻中心

搜索引擎的体系结构

2015-03-05 08:01:50

       搜索引擎主要体系结构主要包括以下四个部分:用户接口、检索器、索引器、搜集器。

 

       搜 集器:就是负责收集互联网中日新月异的网页信息,保证网页信息的有效性和重要性。可以利用网络爬虫、网络蜘蛛(WebCrawler/Web Spider)程序根据一定的规则自动获取互联网上的网页信息和脚本的程序。它能够通过  HTTP  等协议提取符合条件的网页,并且会定期的查看这些抓取到的网页,看是否为无效的网页,如果是就要删除;如果这些网页已经更新或者关注度很高,就要重新评 估并提取这些网页。网络爬虫程序抓取的网页格式主要有:HTML、图片、多媒体等格式,需要将文本信息提取出来。

 

      索 引器:索引器就是为了完成预处理过程。对已经抓取到的网页进行整理,并从中找到索引项,并且用来表示文档以及生成文档库的索引表,并存储在索引数据库中。 索引库的质量在搜索引擎系统中具有重要作用,易于实现和维护、占用空间小、搜索速度快是衡量搜索引擎系统好坏的重要标志。一般有倒排文档、矢量空间模型、 概率模型等。

 

      检索器:检索器的主要作用,首先要对用户查询在数据库中进行匹配,并且根据相应的排序策略对返回的结果进行排序,为用户返回搜索结果。

 

      用 户接口:就是为用户提供查询输入和查看返回结果的界面。一般用户可以在搜索引擎主界面中的搜索查询框中输入自己所想要查询的信息:几个短语、句子或者是问 话、标点符号;在输出界面中,搜索引擎将检索到结果按照一定的排序手段将得到的网页进行线性排列,供用户选择,其中包含加了颜色的关键字、文档的标题、摘 要和超链接等信息。