腾讯医疗AI实验室：3篇论文被国际顶尖会议收录 ——腾讯医疗知识图谱研究近况分享

日期：2024-10-31 移动：http://kaire.xrbh.cn/quote/863.html

近日，腾讯在医疗AI领域的学术研究获得实质性进展，旗下医疗AI实验室共有3篇论文分别被KDD 2018、SIGIR 2018 、COLING 2018三个国际顶尖学术会议收录，论文的主要研究方向为医疗知识图谱中实体关系的发现和应用。

在医疗领域，专业知识和病人信息均存储在复杂多样的文本中，如医疗文献、临床病例等。文本数据中的多重表达形式和噪声给基于文本数据的AI医疗服务带来挑战和困难。知识图谱能够以结构化的形式存储医学中实体以及实体间的关系，能将信息表达成更容易被计算机处理的形式。腾讯医疗AI实验室利用知识图谱及其相关技术，如自然语言处理、知识抽取、信息检索、知识表示与推理等，从医疗文献、医学指南和临床病历中挖掘隐含的医学知识，将大数据转化为知识图谱，使得知识查询和更重要的形式化推理变得可行，有医学依据，辅助临床决策，赋能基于人工智能的医疗产品。

此次腾讯医疗AI实验室研究成果入选的三大学术会议分别是：SIGKDD，数据挖掘研究领域的顶级国际会议；SIGIR, 信息检索领域的顶级国际会议；COLING，自然语言处理领域的重要国际会议。

腾讯医疗AI实验室负责人范伟介绍，“医疗知识图谱是推动人工智能应用于医疗领域的核心驱动力之一，如何更好地利用自然语言处理、知识抽取等相关技术，从形式多样、信息杂乱的各种医疗数据中，抽取结构化的医疗知识，结构化存储实体的详细属性以及实体之间的关系，我们在不断优化提出问题并尝试给出新的解决思路和研究方法。”

以下为收录的三篇论文概要：

1. 入选KDD 2018：基于生成模型的医疗实体关系抽取（On the Generative Discovery of Structured Medical Knowledge）

研究成果：创造性地从生成模型的角度研究医疗实体关系，减少了对语料数据和专家标注的需求

在医疗知识图谱中，实体三元组以结构化的形式描述了医学领域中实体间的各种关系。为了获得医疗领域实体三元组，现有方法大多需要搜集大量语料，或过多依赖于专家的标注。如图1所示，本文提出的算法 CRVAE （Conditional Relationship Variational Autoencoder）利用已标注的实体三元组在自然语言表述上的共性和差异，对多种医疗实体关系类内的数据分布进行联合编码，进而从生成模型的角度去发现未被标注的关系实体三元组。该方法减轻了传统判别模型对于外部资源的过度依赖，并且不依赖于医疗实体关系类间的差异进行建模。

实验表明，算法CRVAE不仅能够在外部资源有限的条件下，以92.91%的支持度生成属于某个特定医疗关系的实体三元组，其生成的结果拥有77.17%的准确率且生成结果中有61.93%的样本未曾出现在训练数据中。

在未来，我们将尝试利用生成模型进行不同粒度、不同医疗子领域的无监督知识发现。同时，我们也期待将生成模型作为一种有效的数据增强方式，赋予医疗领域更多人工智能的应用。

图1 CRVAE模型架构图示

2. 入选SIGIR 2018：具有知识感知能力的答案排序模型（Knowledge-aware Attentive Neural Network for Ranking Question Answer Pairs）

研究成果：证明了利用知识图谱可显著提高问答系统的性能

在基于人工智能的医疗产品中，对话系统作为最终呈现形式有着广泛的应用。答案排序是对话系统中的重要部分，最近受到越来越多的关注。然而，已有相关工作在除关注上下文之外，对起着重要作用的背景知识却关注很少。对此，本文提出了KABLSTM（Knowledge-aware Attentive Bidirectional Long Short-Term Memory），这是一种具有知识感知能力的双向长短记忆模型，它利用知识图谱引入的背景知识来丰富问答的表征学习。

如图2所示，本文开发了一个知识交互式学习架构，其核心是一个上下文引导的注意力神经网络，可将知识图谱中的背景知识嵌入整合到句子表示中；最后结合知识型注意力机制模块，对问题和答案中的各个部分进行有效的相互关联。在WikiQA 和TREC QA 数据集上的实验结果证明了该方法具有一定有效性。在此工作中，利用知识图谱来辅助问题和答案的表示学习。在后续的工作中，我们将研究利用知识图谱进行直接推理，来帮助医疗问答系统。

图2 KABLSTM模型架构图示

3. 入选COLING 2018：基于远程监督具有协同消噪能力的实体关系抽取模型（Cooperative Denoising for Distantly Supervised Relation Extraction）

研究成果：创造性地提出能够减少数据噪声对实体关系抽取性能影响的方法

在知识图谱的构建过程中，远程监督（Distant Supervision）能够减少对标注数据的需求，因此适合从非结构化文本中进行关系抽取。然而，该方法有可能受到训练数据噪音过大的影响，性能受到限制。为解决这个问题，本文提出了一种协同消噪的模型CORD （COopeRative Denoising framework），该方法由两个神经网络和一个协同模块组成，如图 3 所示，两个神经网络分别在文本语料库和知识图谱领域进行学习，再通过一个自适应的双向蒸馏模块（adaptive bi-directional knowledge distillation）完成它们间的相互学习，达到消除噪声的目的。实验表明，该方法在噪声较大的数据上有较明显的效果提升。

在医疗领域，医疗文本、医疗影像等不同模态、不同来源的数据包含着互补的丰富信息。在后续研究工作中，我们将利用多模态、多源数据进行更加可靠的去噪和医疗知识提取。

图3 CORD模型架构图示

本文地址：http://syank.xrbh.cn/quote/863.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关动态

腾讯医疗AI实验室：3篇论文被国际顶尖会议收录 ——腾讯医疗知识图谱研究近况分享

推荐动态

点击排行