搜索引擎及其技术架构

发布时间:2024-09

浏览量:105

本文字数:1750

读完约 6 分钟

1、搜索引擎为何重要

搜索引擎依托于互联网,互联网的蓬勃发展是搜索引擎产品与技术逐步成熟的大背景。离开互联网,搜索引擎将无从谈起。


1)互联网的蓬勃发展

20世纪90年代初期是互联网后期获得大规模发展的起爆点,之所以如此,是有其技术背景和社会背景的。

2)商业搜索引擎公司的发展

1995年是搜索引擎商业公司发展的重要起点,其对应的背景是:互联网上的Web站点数量首次超过100万,此时普通用户已经无法依赖手工浏览的方式来获得自己想要的信息。在这一年产生了很多风云一时的早期搜索引擎公司。Yahoo、InfoSeek、Fast Search、AltaVista、Excite等曾经非常著名的搜索引擎公司都创建于1995年。

3)搜索引擎的重要地位

互联网信息量在过去获得了爆炸性增长,信息过载的问题就目前来说非常严重,随着互联网个性化的发展趋势逐步展现,普通用户发布信息的成本越来越低,这个问题将会更加严重。这是搜索引擎相关应用越来越重要的一个基础背景。搜索是目前解决信息过载的相对有效方式,在没有更有效的替代解决方式出来之前,搜索引擎作为互联网网站和应用的入口及处于行业制高点的重要地位只会逐步加强。


2、搜索引擎技术发展史

1)史前时代:分类目录

2)第一代:文本检索

3)第二代:链接分析

4)第三代:用户中心


3、搜索引擎的3个目标

1)更全

2)更快

3)更准


4、搜索引擎的3个核心问题

1)用户真正的需求是什么

2)哪些信息是和用户需求真正相关的

3)哪些信息是用户可以信赖的

对于分类目录式搜索引擎,其重点关注的是信息的可信赖性,因为分类目录内收录的网站经过人工精心筛选,所以具有很强的可信赖性,但是对于用户需求和相关性是不做考虑的,完全靠用户自由浏览来确定。

对于第一代文本检索式搜索引擎,其重点关注的是查询关键词和网页内容的相关性。这种搜索方式假定用户输入的查询关键词就是用户的真实需求,很明显这种假设很难成立。另外,这种搜索方式对于信息的可信度也未做任何识别。

第二代搜索引擎引入链接分析技术,链接关系代表了一种推荐含义,而获得越多推荐的网页其链接分析得分越高,这其实是一种对网页可信度的度量标准。同时,第二代搜索引擎也利用了文本检索模型,来计算查询和网页内容的相关性。所以第二代搜索引擎是综合考虑了信息的相关性和可信性的,但是同样没有对用户需求做关注。

  第三代搜索引擎的重点则是用户的真实需求,其他方面则兼顾了第二代搜索引擎的优点,即第三代搜索引擎同时考虑了3个核心问题。


5、搜索引擎技术架构

搜索引擎的架构主要包括以下组件:

  1. 爬虫:从互联网上抓取数据。

  2. 索引器:建立索引。

  3. 查询处理器:处理用户查询。

  4. 排序算法:返回最相关的结果。

1)爬虫系统

爬虫系统是搜索引擎的重要组成部分,它的主要任务是从互联网上抓取网页,并存储到网页库中。爬虫系统通过模拟用户的浏览器行为,访问互联网上的网页,并将网页内容存储到网页库中。在存储过程中,爬虫系统会对网页进行一些预处理,如去除广告、去除无关内容等。

2)建立索引与查询索引系统

建立索引与查询索引系统是搜索引擎的核心部分,它负责对网页进行索引和查询。在索引阶段,系统会从网页库中读取网页内容,并建立倒排索引和正排索引。倒排索引是指将网页中的单词与对应的文档列表相关联,而正排索引则是将文档列表中的每个文档存储为一个有序的单词列表。通过这两种索引方式,系统可以在查询阶段快速地找到与查询相关的网页。

在查询阶段,用户输入搜索词后,系统会根据倒排索引和正排索引找到与搜索词相关的网页。为了提高查询速度,系统还会使用一些查询优化技术,如使用缓存、建立分布式索引等。

3)打分排序系统

打分排序系统是搜索引擎中最为重要的部分之一,它的主要任务是对搜索结果进行排序。在搜索阶段,系统会根据查询词和网页的相关性进行匹配,并返回匹配的网页列表。然而,由于互联网上的网页非常多,不可能将所有网页都返回给用户。因此,打分排序系统需要根据一定的算法对搜索结果进行排序,以便用户能够快速地找到所需的信息。

打分排序系统的算法有很多种,常见的有PageRank算法、TF-IDF算法等。PageRank算法是根据网页之间的链接关系来评估网页的重要性,而TF-IDF算法则是根据网页中单词的频率和逆文档频率来评估单词的重要性。在实际应用中,搜索引擎公司往往会根据自身特点和市场需求选择合适的算法对搜索结果进行排序。



^