搜索引擎索引系统概述（一）

clsrich 站外优化 2019-09-04 16:26:23 400 0

众所周知，搜索引擎的主要工作过程包括：抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统，以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针，也许一定的时间内可以完成查找，但是用户等不起，从用户体验角度我们必须在毫秒级别给予用户满意的结果，否则用户只能流失。怎样才能达到这种要求呢？

如果能知道用户查找的关键词（query切词后）都出现在哪些页面中，那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程，而检索即变成了页面名称之间的比较、求交。这样，在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。

（1）页面分析的过程实际上是将原始页面的不同部分进行识别并标记，例如：title、keywords、content、link、anchor、评论、其他非重要区域等等；

（2）分词的过程实际上包括了切词分词同义词转换同义词替换等等，以对某页面title分词为例，得到的将是这样的数据：term文本、termid、词类、词性等等；

（3）之前的准备工作完成后，接下来即是建立倒排索引，形成{termàdoc}，可以粗略的理解为如下，为什么是【term->doc】,而不是直接应用【doc->term】呢？

》》》

AAVBBCNVM，N。KJO

版权声明

本文仅代表作者观点，不代表本站立场。
发布的有些文章部分内容来源于互联网。如有侵权，请联系我们，我们会尽快删除。

本文链接：https://www.shseotuiguang.com/post/539.html

上一篇：昆山网络公司：QQ公众平台限量测试，腾讯要玩哪一出？
下一篇：昆山网络公司：网站日志分析操作方法

发表评论

评论列表（0人评论 , 400人围观）

☹还没有评论，来说两句吧...

选关键词

URL优化

代码优化

网页结构

经验之谈

内链外链

优化误区

英文优化

搜索算法

百度AD

谷歌AD

黑帽灰帽

百度PC端

百度手机端

搜狗PC端

搜狗手机端

360搜索

神马搜索

好书推荐

好站推荐

视频学习

优化工具

谷歌优化

生意经

搜索引擎索引系统概述（一）

版权声明

相关文章

发表评论

网站分类

最近发表

标签列表

统计代码 | 蜀ICP备18039239号

Powered By 城南二哥