鉴别诊断(Differential Diagnosis, DDx)是临床医学的核心环节。医生需要通过迭代分析,整合病史、体格检查及各项调查结果,从而得出一系列可能的诊断。这一过程对医生的知识储备和推理能力要求极高,面对复杂罕见病例时尤其如此,挑战性极大。尽管此前已有AI系统尝试辅助诊断,但它们大多缺乏自然语言交互能力,难以无缝融入真实的临床工作流程。
谷歌研究团队在《Nature》杂志上发表了题为“Towards accurate differential diagnosis with large language models”的研究论文。该研究开发了一款专为临床诊断推理优化的研究性大型语言模型——AMIE (Articulate Medical Intelligence Explorer)。通过一项严格的随机对照试验,研究评估了AMIE在独立诊断和辅助临床医生诊断方面的能力,证明了其在提升复杂病例诊断准确性方面的巨大潜力。
为验证AMIE的性能,研究团队选取了302份来自《新英格兰医学杂志》的经典复杂病例报告。20名临床医生参与了评估,他们被随机分为两组:一组在诊断时可使用传统搜索引擎及标准医学资源;另一组则在此基础上额外获得AMIE的辅助。所有医生在借助工具前,均需先独立提供一份基线鉴别诊断列表。研究的核心发现包括:
(1) 独立诊断性能超越人类医生: 在无辅助条件下,AMIE独立生成的鉴别诊断列表,其前十项诊断的准确率(Top-10 Accuracy)达到了59.1%,显著高于未经辅助的临床医生(33.6%)。
(2) 显著提升医生的诊断能力: 与仅使用搜索引擎的医生相比,获得AMIE辅助的医生所给出的诊断列表在质量、全面性和准确性上均有显著提升。数据显示,AMIE辅助下的医生诊断准确率(51.7%)优于搜索引擎辅助下的医生(44.4%)。
(3) 提升诊断列表的全面性: 研究发现,经AMIE辅助后,医生能够提供更全面、更合理的鉴别诊断列表,有效弥补了医生在面对复杂病例时可能出现的知识盲区或思维局限。
该研究首次系统性地证明,为诊断推理而优化的交互式大型语言模型,不仅能独立达到甚至超越人类专家的诊断水平,更能作为一种强大的辅助工具,赋能临床医生,提升其在处理疑难杂症时的诊断准确度和效率。AMIE的成功展示了人机协同在未来医疗领域的广阔前景,为解决专家资源稀缺、拓宽优质医疗服务可及性提供了新的范式和有力的技术支持。
论文链接:https://doi.org/10.1038/s41586-025-08869-4
注:此研究成果摘自《Nature》杂志,文章内容并不代表本网站的观点和立场,仅供参考。