百度智能搜索到底有多智能？不可同日而语

u1s1是什么意思？干饭人又是个啥？

百度智能搜索到底有多智能？不可同日而语

当在北戴河阿那亚的剧场里被突然问到类似稀奇古怪的问题，一时发懵的我只想当场掏出手机，给对方来个“百度一下”。

说起来，搜索这项“旧技术”最近的讨论声浪还真有点大。

君不见那边新搜索工具广告天天见，这厢听着海风看话剧的百度万象大会现场，老牌搜索引擎也打出了“百度一下生活更好”的新Flag。

百度智能搜索到底有多智能？不可同日而语

其实，正如百度集团执行副总裁沈抖现场所说，大家对搜索太过熟悉，以至于感受不到其中技术的变革，搜索的技术存在感那是真“感知不强”。

但实际上，“AI技术为搜索提供了持续进化的动力”。

要知道，从古早的文本检索到今天的人工智能，网络世界的网页数量已经从千万级别，增长到了千亿级别，其中囊括的内容可能比世界上所有图书馆加起来还要丰富。

在今天，想要高效连接今天的互联网用户和海量信息，搜索引擎其实真的没那么简单。

那么，究竟是怎样的技术在驱动搜索引擎更智能地读懂你的需求，连接丰富而又准确的信息？

技术本身在海量信息增长面前，又经历了怎样的进化？

今天，不如就借着这阵势，我们来好好说道说道。

从文本检索到人工智能

现在，在使用搜索引擎时，你可能不只会用几个关键词，还会直接输入你想问的问题。

百度智能搜索到底有多智能？不可同日而语

但其实早期的搜索引擎采用的是文本检索的方式，只能做到用户查询关键词和网页文本内容的匹配。

可想而知，虽然这样的方式也能把不同网页的关联度进行排序，但总体的搜索质量是比较差的。

而实际上，网页之间有着丰富的链接关系，就像高引论文往往本身质量更高，高质量的网页通常也会被更多的网页链接。

为了进一步挖掘和利用这种链接信息，1996年，李彦宏开发了Rankdex，即超链分析算法。这是世界上首个使用超链接来衡量网站质量的搜索引擎。

也就是说，搜索引擎在收到一个用户查询之后，不仅仅会去匹配网页的内容，还会看看其他网页对这个页面的“评价”。

在此之后，谷歌也提出并使用了类似的PageRank技术，并大获成功。

超链分析算法，可以说是当今每个主要搜索引擎排名算法的基础。值得一提的是，在谷歌创始人拉里·佩奇的第一项网页排名专利申请中，也引用了Rankdex。

如果说早期的搜索技术门槛不算高，从超链分析这个阶段开始，一些今天大家伙普遍依赖的搜索引擎，就开始一骑绝尘，拉开差距了，比如谷歌，比如百度。

并且这些做搜索引擎起家的公司，如今也都成为了人工智能领域的先行者。

百度智能搜索到底有多智能？不可同日而语

而事实上，甚至在人工智能未成显学之时，为了让搜索结果更快、更精准、更个性化，搜索领域的巨头们就已经着手将机器学习的方法引入到搜索引擎中。

谷歌就在2016年上线了基于反向传播技术的RankBrain算法。该算法可以基于语义分析和词库联想，帮助用户更快地搜索冷门的搜索结果。

而如今在NLP领域大火的BERT，也已被部署到谷歌搜索当中。有了预训练语言模型的加持，即使你输入的是一大段文字，搜索引擎也能够get到你想查什么。

根据谷歌的数据，BERT的引入为至少10%的搜索结果带来了改善。

国内，百度同样是最早投入人工智能技术研发的科技公司，在2010年就成立了单独的NLP部门。

以搜索引擎技术为核心，在过去十余年中，百度演化出了语音、图像、知识图谱、自然语言处理等人工智能技术。这些长期的技术积累，甚至在今天进一步拓展到了自动驾驶、AI芯片等领域。

这也是为什么，在今天，搜索引擎不仅仅能按照你输入的文字进行搜索，甚至直接给一张图、一段音乐，AI也能理解你想要获取怎样的信息。

百度智能搜索到底有多智能？不可同日而语

正如沈抖所说，打开百度App，你说出想问的问题，可能旁边的人还没听清，百度搜索已经能够提供精准的答案。而当你在阿那亚的任何一个角落，看到不认识花草苗虫，打开相机使用视觉搜索，也能快速得到答案。

智能搜索时代背后的关键技术

所以，进化到智能搜索时代，让搜索引擎高效连接你和信息的核心技术，具体又有哪些？

正好，在百度万象大会上，沈抖也介绍了百度AI是如何推动搜索持续进化的。我们一项一项来看个仔细。

百度智能搜索到底有多智能？不可同日而语
深度语义匹配模型

2013年，百度搜索就上线了基于百亿级用户行为数据的SimNet语义匹配模型，使得搜索结果的相关性得到明显提升。

简单来说，SimNet利用词向量技术解决了关键词匹配失败的问题，可以有效得到同义词、近义词之间的相似度，并且具有较强的泛化能力。

在实际应用场景下，海量的用户点击行为数据会被转化为大规模弱标记数据，再搭配并行训练算法，SimNet首次实现了可完全取代基于字面匹配的策略，而且可以直接建模非相似度类的匹配问题。

其核心网络结构形式，包括BOW、CNN、RNN、MMDNN等。

百度智能搜索到底有多智能？不可同日而语

而基于这样的深度语义模型，百度搜索已经将一次全库语义检索的时间优化到了10ms。

跨模态深度阅读理解技术

前文也说到，有AI加持的搜索引擎，不仅仅能读懂文字，还能听懂语音、看懂图片。

其实，机器认知世界的方式，也不仅仅局限在自然语言，还包括对语音、视觉等多模态信息的综合应用。

为此，百度重点研发了知识增强的跨模态深度语义理解技术。

百度智能搜索到底有多智能？不可同日而语

一方面，打造拥有超过50亿实体和5500亿事实的多元异构知识图谱。通过将知识作为背景信息，增强了模型的语义推理能力。

另一方面，通过知识关联跨模态信息，运用语言描述不同模态信息的语义，进而让机器实现图像和语言、语音和语言的一体化理解。

基于这项阅读理解技术，百度还在EMNLP-MRQA 2019阅读理解国际测评中，以超出第二名近2个百分点的优势获得冠军。

智能化多模搜索技术

2015年，百度就提出了多模搜索的理念，探索从文本搜索向语音、视觉、视频等多模态搜索的演进。

而这或许也是智能化搜索在用户层面最直观的体现——在百度App中，你可以体验语音搜索、拍照搜索、实时翻译、植物识别、视频搜索等丰富的搜索方式。

除了前面提到的跨模态语义理解，在语音搜索上，百度搜索还集成了语音识别、语音合成等多项AI技术，让搜索引擎能“听”会“说”，不仅能够听清、听懂，还能深入理解语义，给出绘“声”绘色的最佳搜索答案，让搜索引擎与用户之间的交互方式变得更加自然、流畅、便捷。

在视觉搜索上，百度搜索综合了图像识别、人脸识别、OCR、物体检测、实体匹配等多项视觉技术，并依托于搜索系统对全网图像、视频内容的索引以及用户行为，得以细粒度的识别用户实时录制的视频流、拍照及上传图片中的实体和文字，进而围绕实体在用户视觉场景下的需求，链接并组织相关内容及服务提供给用户，实现诸如拍题搜索、商品搜索、实时翻译、植物识别等智能视觉搜索能力。

百度智能搜索到底有多智能？不可同日而语