简体中文
简体中文 English

用户登录

注册

CN/EN

新闻资讯

News

华西科研创新:多智能体AI会诊框架突破医学认知障碍,开启罕见病精准诊断新篇章—多智能体会话语言模型提升诊断能力

时间:2025-03-31 阅读量:7 撰文:转载

在医疗科技飞速发展的今天,大语言模型(Large Language Models,LLMs)如同一颗璀璨的新星,逐渐在医学领域崭露头角。它凭借着庞大的医学数据库和先进的分析算法,在简单医疗任务中表现出色,比如回答医学知识疑问、诊断常见疾病等。然而,当面对复杂的临床场景,尤其是罕见病诊断时,LLMs 却仿佛遇到了 “高墙”,难以翻越。

罕见病,这些发病率极低的疾病,每 10 万人中仅有 5 - 76 例。由于其低患病率,相关的专业知识极度匮乏,这使得准确诊断变得异常困难,往往导致治疗延误。而且,罕见病的症状复杂多变,误诊、漏诊的情况屡见不鲜。就像在黑暗中摸索,医生们常常因为缺乏足够的线索而难以找到正确的诊断方向。此时,LLMs 本应成为有力的助手,却因为自身的局限性,在复杂的临床推理中显得力不从心。研究表明,LLMs 在诊断复杂病例时存在明显的局限性,其推理能力在面对实际临床场景时受到了质疑。此外,LLMs 的训练材料大多是问答格式,侧重于传授通用医学知识,对专业领域的训练不足,也未能充分融入实际临床实践。在罕见病领域,由于病例数量少、报告有限,构建一个全面的训练数据库更是难上加难。
为了突破这一困境,四川大学华西医院等机构的研究人员踏上了探索之旅,开展了一项极具创新性的研究。他们受到临床多学科团队讨论模式的启发,开发了一种多智能体对话(Multi - Agent Conversation,MAC)框架,旨在提升疾病诊断能力。这项研究成果发表在《npj Digital Medicine》上,为医学领域带来了新的希望。

在研究中,研究人员运用了多种关键技术方法。首先,他们从 Orphanet 数据库中选取了 302 种罕见病,通过归一化加权随机抽样的方式,确保样本的代表性。接着,从 Medline 数据库中获取临床病例报告,并经过严格筛选,提取出患者的详细信息。然后,基于 AutoGen 结构开发了 MAC 框架,以 GPT - 3.5 和 GPT - 4 作为基础模型进行研究。为了评估模型的性能,研究人员设计了初级会诊和随访会诊两种场景,分别测试模型在有限信息和完整信息下的诊断能力。
研究结果令人欣喜。在疾病特定知识方面,GPT - 3.5、GPT - 4 和 MAC 在所有测试方面的平均得分均超过 4 分,这表明它们在知识储备上都有不错的表现。但在诊断能力上,MAC 则展现出了明显的优势。在初级会诊和随访会诊中,MAC 的诊断准确率和推荐进一步诊断测试的有效性都显著高于单模型 GPT - 3.5 和 GPT - 4。进一步分析发现,MAC 以 GPT - 4 为基础模型时表现更优,而且 4 个医生智能体的配置能达到最佳性能。同时,研究还发现主管智能体在框架中起着至关重要的作用,去除主管智能体会降低 MAC 的性能,而给医生智能体分配特定专业对性能提升并不明显。
从可靠性分析来看,MAC 框架在多次重复测试中表现出了高度的一致性,这意味着它的诊断结果较为稳定可靠。在与其他方法的比较中,如思维链(Chain of Thoughts,CoT)、自我精炼(Self - Refine)和自洽性(Self - Consistency),MAC 在诊断性能上全面超越了它们,并且生成的输出令牌更多,这有助于更深入地探索推理路径,挖掘疾病的潜在病因。
研究还对输出令牌对模型性能的影响进行了分析。结果发现,增加输出令牌数量对部分方法的性能有提升作用,但对于 Self - Refine、Self - Consistency 和 MAC 来说,这种提升存在一个阈值,超过阈值后增加输出令牌并不能带来更多的性能提升。而 CoT 则随着输出令牌数量的增加,性能持续提高。
综合来看,这项研究的结论意义重大。
MAC 框架显著提升了 LLMs 在临床环境中的诊断能力,有效弥合了理论知识与实际临床应用之间的差距。虽然目前研究样本量相对较小,数据提取也存在一定的主观性,但它为未来的研究指明了方向。未来可以进一步扩大样本量,纳入更多类型的疾病,以更全面地验证和优化 MAC 框架的性能。同时,研究也强调了多智能体 LLMs 在医疗领域的巨大潜力,有望为医生在面对复杂病例时提供有价值的辅助诊断建议,成为医生的得力 “助手”,为全球医疗健康事业的发展注入新的活力。
  • 扫一扫关注

    @北京荷清公益基金会公众号

  • 扫一扫关注

    @北京荷清公益基金会服务号