工作搜索引擎(工作搜索)
您好,蔡蔡就为大家解答关于工作搜索引擎,工作搜索相信很多小伙伴还不知道,现在让我们一起来看看吧!
1、搜索引擎的整个工作过程包括三个部分:抓取搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。
2、互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。
3、它不停的向各种网站发送请求,将所得到的网页存储起来。
4、通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。
5、有很多细节要被考虑。
6、比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。
7、2、索引索引就是帮助程序进行快速查找的。
8、大家都用过英汉词典。
9、字典前边的按照单词首字母排列的部分就是索引。
10、搜索引擎也一样。
11、这里要介绍第一个最重要的数据结构:反转列表。
12、搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。
13、它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。
14、这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。
15、每一个网络文档不仅只有文本信息。
16、它还可能包括文件名,引用等部分。
17、为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。
18、每一部分的单词都要被加入到这个词属于此部分的反转列表里。
19、3、搜索有了索引,就可以快速找到所需内容了。
20、前边说过搜索引擎根据用户的信息需求查找匹配的内容。
21、信息需求来自于用户输入。
22、搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。
23、总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。
24、4、排序用户输入的关键词,就可以查看到相关的内容了。
25、这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。
26、排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。
本文就讲到这里,希望大家会喜欢。
更多知识
-
如何治疗和预防甲流(服务窗·科学防疫)
原标题:如何治疗和预防甲流(服务窗·科学防疫)每年春季是甲流的高发季节,最近一些地方出现了散发病例。什么是甲流?有什么特点?如何治...烟燃烟灭つ 268 阅读
-
iPhone15的type-C接口玩手段,欧盟将重罚,苹果会妥协么?
据称苹果今年的iPhone15将会首次用上type-C接口,不过苹果为了赚取厚利可能会给type-C接口,而欧盟显然也早就为此做好准备,如果苹果执意如...﹏丶小迣界 284 阅读
-
微视频|同心逐梦 共向未来
原标题:微视频|同心逐梦 共向未来春风浩荡中,2023年全国两会通过法定程序把党的二十大作出的决策部署转化为全国人民的实际行动,胜利闭...■■俗人雅钦 187 阅读
-
东方甄选回应直播间疑似售假:会积极解决问题,请不要攻击主播
Tech星球3月16日消息,日前东方甄选被曝将养殖虾当野生虾卖引发热议。昨日晚间,东方甄选官方账号发文回应称,“东方甄选作为一家公司,会...原地等候已经远去的幸福 216 阅读
-
OpenAI 离成熟商业公司更近一步
发布 GPT-4 的同时,OpenAI 离成熟公司越近,离名字里的 “Open” 越远。GPT-4 无疑是一个更好的产品。写散文、诗歌、代码,这些 GP...床上小旋风 281 阅读
-
维珍轨道公司暂停运营一周:员工休无薪假,股价暴跌50%
3月16日消息,据外媒援引知情人士消息称,当地时间周三火箭发射公司维珍轨道决定暂停运营一周时间,并安排大部分员工休无薪假,期间寻求能...冷夕颜 237 阅读
-
推动世界共同发展繁荣 创造更加美好未来
原标题:推动世界共同发展繁荣 创造更加美好未来新华社北京3月13日电题:推动世界共同发展繁荣 创造更加美好未来新华社记者十四届全国人...而后的我们 220 阅读
-
瞭望·治国理政纪事丨马上就办 真抓实干
原标题:瞭望·治国理政纪事丨马上就办 真抓实干 ◆ 1991年2...愚人自愈 203 阅读
撰写回复