【摘要】
电子病历(EHR)的普遍使用和日常医疗记录的标准化文书实践是患者医疗连续性不可或缺的组成部分,它提供了患者医疗保健轨迹的综合而全面的描述,包括病情状况、诊断和治疗方案等。然而,电子病历中临床叙述的复杂性和冗长性不断增加,往往充斥着冗余的信息,这给医务人员带来了认知超载的风险,可能最终会导致诊断不准确。医生经常跳过冗长和重复的记录,依赖于可能导致诊断错误的决策捷径(即决策启发式)。
统一医学语言系统(UMLS)是美国国家医学图书馆(NLM)开发的综合资源,已被广泛应用于自然语言处理研究。它作为一个医学知识库,促进了生物医学信息的整合和检索。它提供概念词汇和语义关系,使医学知识图谱(KG)的构建成为可能。先前的研究利用统一医学语言系统的知识图谱进行信息提取和问答等任务。挖掘诊断相关知识尤其具有挑战性,原因有两个:与电子病历中患者的主诉、病史和症状相关的高度特异性因素,以及知识图谱中包含的用于诊断决策的450万个概念和1500万个关系的巨大搜索空间。
在本项研究中,作者们探索了利用知识图谱作为外部资源来增强和优化用于生成诊断的大语言模型。此项工作不仅受到自然语言处理领域用知识图谱增强和优化大语言模型的潜力的推动,还受到医学教育和心理学研究中的理论探索的推动,这些都揭示了临床医生所采用的诊断决策过程。形成诊断决策需要检查患者数据,检索封装的医学知识,以及制定和测试诊断假设,这也被称之为临床诊断推理。作者在此提出了一种新的图谱模型,命名为“医生.知晓” (即“诊断推理知识图谱”英文的巧妙缩写),它检索关于疾病病理的前N个特定病例的知识路径,并将它们输入基础大语言模型,从而提高诊断预测的准确性。本研究的主题是两个不同的基础模型:T5(以可微调而闻名)和沙箱化的ChatGPT(一个强大的大语言模型),探索零样本提示(零样本提示的定义是直接向大语言模型提出任务,但不提供如何执行的方法或者步骤)。