智网互联实验室

20260502

来自秘鲁商报（El Comercio Perú）的报道：

原文参见：https://elcomercio.pe/tecnologia/inteligencia-artificial/la-ia-muestra-un-fuerte-rendimiento-en-tareas-de-razonamiento-clinico-pero-no-esperes-que-reemplacen-a-los-doctores-pronto-noticia/

一项新一代大语言模型（large language model，LLM）在多项临床推理任务中超过了医生，包括急诊决策、可能诊断的识别以及治疗步骤的选择。

这一结论来自《科学》（Science）刊发的一项研究。不过，研究作者也强调，这些结果并不意味着人工智能（inteligencia artificial，IA）系统已经准备好独立行医，也不意味着医生可以被排除在诊断流程之外。

这项研究由哈佛大学（Harvard University）医学院牵头，使用了急诊科的真实数据来训练语言模型，并评估人工智能是否能够像医生一样，梳理杂乱无章的病史信息，并据此判断诊断结果以及后续应采取的步骤。

总体而言，研究结果显示，这些大语言模型目前在鉴别诊断（diagnóstico diferencial）、临床诊断推理以及治疗推理方面都表现出显著能力，并且在多个领域超越了早期一代模型，甚至也超过了医生。研究还指出，在真实、非结构化的急诊病例中，这种性能提升同样存在；在这类场景下，医生往往需要在信息有限、且常常并不完整的情况下迅速作出判断。

不过，研究作者也指出了该研究的局限性。其分析框架主要集中于基于文本的推理，而现实中的临床实践在很大程度上依赖视觉和听觉信号，在这些方面，当前人工智能的能力仍然较弱。

这项研究由哈佛大学（Harvard University）的彼得·布罗德尔（Peter Brodeur）领衔，比较了 OpenAI o1 系列这一先进语言模型，与数百名医生以及更早期人工智能系统在广泛临床推理任务中的表现差异。测试内容既包括标准化临床病例，也包括随机选取的真实急诊患者案例。

该模型最明显的优势，体现在急诊分诊（clasificación inicial de pacientes）这一初始环节。在这一阶段，医生通常必须在掌握极少信息的情况下快速作出决定。研究指出，虽然随着更多临床信息的加入，人类和人工智能的表现都会有所提高，但该模型在不确定条件下仍表现出较强能力，甚至能够有效利用碎片化、非结构化的病历数据。

作者据此认为，大语言模型正迅速逼近人类水平的临床推理能力，并且在部分领域已经实现超越。不过，这并不意味着人工智能已经具备自主行医的条件。布罗德尔（Brodeur）在哈佛大学（Harvard University）发布的一份声明中指出，一个模型或许能够给出正确的首要诊断，但它也可能同时建议进行一些不必要的检查，而这些检查反而可能给患者带来风险。

与这项研究配套发表的一篇评论文章，由澳大利亚（Australia）弗林德斯大学（Universidad de Flinders）的专家撰写。文章指出，在人工智能被广泛引入医疗领域之前，必须对其进行谨慎评估与监管，因为快速的技术进步并不会自动转化为对患者安全的可靠应用。

研究人员承认，人工智能近期的发展确实为支持医生提供了现实机会，特别是在工作量大、压力高的医疗环境中更是如此。然而，他们同时强调，现实世界中的医疗远不只是文本推理或测试成绩。临床实践依赖于体格检查、倾听患者、理解其医学与社会背景，以及对最终结果承担责任。

展望未来，弗林德斯大学（Universidad de Flinders）的研究者认为，面对医疗人工智能的发展热潮，社会必须同步建立更稳健的治理机制，以及更清晰的评估标准。也就是说，真正重要的问题并不只是人工智能“能不能做”，而是它“是否能够在安全、可控和负责任的前提下被采用”。

编辑：姚少杰

校对：康晨雨

科讯搜寻：孙劳拉

本文使用ChatGPT辅助翻译，内容服务于中拉科技互鉴，不代表平台观点，如有疏漏，欢迎指正。