智网互联实验室

【智网文摘】研究警告：使用 AI 聊天机器人寻求医疗建议存在风险，“人工智能尚未准备好承担这一角色”

2026-02-13

20260213

来自时代报（El Tiempo）的报道：

原文参见：https://www.eltiempo.com/tecnosfera/apps/estudio-alerta-sobre-los-riesgos-de-usar-chatbots-de-inteligencia-artificial-para-buscar-consejos-medicos-la-ia-no-esta-lista-para-asumir-el-papel-3530929

使用基于人工智能的聊天机器人（chatbots）寻求医疗建议，可能对患者构成风险。《时代报》报道指出，一项发表于《自然·医学》（Nature Medicine）的最新研究表明，当前的大型语言模型（Modelos de Lenguaje de Gran Tamaño，LLM）在辅助患者进行医疗决策方面，并未展现出优于传统方式的效果。

该研究由英国牛津大学（Universidad de Oxford）研究人员主导，具体由牛津互联网研究所（Oxford Internet Institute）与纳菲尔德初级保健健康科学系（Departamento Nuffield de Ciencias de la Salud de Atención Primaria）联合开展。研究指出，在人们利用人工智能系统查询症状或评估可能疾病时，这类模型所承诺的能力与其在现实中的实际效用之间存在显著差距。

根据研究结果，那些借助人工智能系统来判断病情严重程度并决定下一步行动的参与者，其表现并未优于依赖传统信息渠道的人群，例如自行在互联网搜索资料或依据个人判断作出决定。这一发现对当前日益增长的“AI医疗咨询”趋势提出了质疑。

为检验这些工具的实际效果，研究团队设计了一项随机对照试验，约有1,300名参与者参与其中。志愿者被要求在多个由医生设计的临床情境中，识别可能的疾病并提出相应的应对建议。测试场景包括诸如一名年轻人在夜间外出后出现剧烈头痛，或一位初为人母的女性持续感到疲惫并伴有呼吸困难等情况。

在实验中，一组参与者可以使用大型语言模型提供辅助，而对照组则只能依赖传统信息来源。对双方互动过程的分析显示，问题在“人机互动”的双向层面同时存在。一方面，许多参与者向模型提供的信息并不完整；另一方面，语言模型生成的回答中也存在错误数据，或者在给出合理建议的同时夹杂潜在有害的内容。

该研究的主要作者、牛津互联网研究所博士研究员安德鲁·比恩（Andrew Bean）指出，为大型语言模型设计更为严谨的测试框架，对于理解如何安全利用这一新兴技术至关重要。他强调，即便是目前性能最强的模型，在与人类互动时仍然面临重大挑战。

鉴于上述结果，研究人员认为，现阶段的大型语言模型尚不适合直接应用于患者护理场景。他们主张，与药物一样，人工智能系统在被正式采用于医疗服务之前，应在真实环境中接受严格、系统的验证和测试，以确保其安全性和有效性。

报道最后指出，这项研究再次凸显，在医疗健康等高风险领域，人工智能技术的应用必须保持谨慎态度。尽管相关工具在信息获取层面具有便利性，但其在实际决策支持方面的能力仍有待进一步验证。在技术成熟与监管框架完善之前，专家建议公众不要将此类聊天机器人视为专业医疗建议的替代方案。

编辑：姚少杰

校对：康晨雨

科讯搜寻：思博

本文使用ChatGPT辅助翻译，内容服务于中拉科技互鉴，不代表平台观点，如有疏漏，欢迎指正。