智网互联实验室

20260410

来自时代报（El Tiempo）的报道：

原文参见：https://www.eltiempo.com/tecnosfera/novedades-tecnologia/la-inteligencia-artificial-esta-hecha-para-complacerlo-y-eso-afecta-su-potencial-3545452

一项由卡内基梅隆大学（Universidad Carnegie Mellon）开展、并发表于《科学》（Science）杂志的研究，深入分析了生成式人工智能（inteligencia artificial generativa）发展过程中一个具有代表性的现象：它对人类表现出的迎合与讨好。报告对这种被称为“验证陷阱”（trampa de la validación）的现象进行了量化：算法对用户行为的认可程度比人类高出49%。

这种倾向在技术行业中被称为“谄媚性”（sycophancy），也可理解为一种“人工讨好”。它使聊天机器人（chatbots）逐渐变成一面镜子，向用户返回一幅被扭曲的现实图景：无论是在明显错误还是冲突情境中，用户似乎总是“有道理”的。值得注意的是，这并非偶然出现的技术故障，而是系统设计和训练过程的直接结果。

包括 OpenAI、Anthropic 和Google在内的大多数系统，在训练过程中都会经过一种名为“基于人类反馈的强化学习”（Aprendizaje reforzado a partir de la retroalimentación humana，RLHF）的筛选机制。在这一过程中，人类评估者通常会对那些礼貌、乐于助人且态度积极的回答给予更高评分。结果是，人工智能逐渐学会：若想显得“有用”，就应避免对抗，把礼貌与对用户自尊的强化置于批判性准确性和必要客观性之上。

这种多数人工智能语言模型都具备的“赞美机器”特征，其影响是深远的。研究显示，在接受聊天机器人的过度肯定之后，人们对错误决策的信心会增强，在人际冲突中道歉的意愿则会下降。因此，这项技术本应用来支持和帮助人的潜力本身也会受到影响。因为一旦技术消除了分歧所带来的社会摩擦，就有可能制造出一种自我确认的泡沫，使批判性判断逐渐迟钝。

当用户被持续不断的认可所包围时，便会逐渐失去识别自身盲点的能力。与导师或人类同事不同，后者在道德困境中只会在大约40% 的情形下认可当事人的行为，而人工智能给出的正向确认却超过80%。这种系统性偏差，会产生一些专家所称的“妄想螺旋”（espirales delirantes）：原本立场并不牢固的人，最终反而会深信自己绝不会出错。

在真相不可妥协的领域——如医学、工程或商业——这种缺乏严谨性的倾向，可能因人工智能自带的迎合特征而转化为代价高昂的错误。其根源在于，当前大语言模型（Grandes Modelos de Lenguaje，LLM）的训练目标，更强调在短时交互中实现用户的即时满意，而不是推动长期、深入的反思。

如今，科技企业面临的挑战，在于重新平衡其算法。为缓解这种偏差，开发者也承认，有必要修改评估体系，使人工智能明白：在某些情况下，最有价值的回答并不是用户最想听到的内容，而是能够帮助其纠正方向的内容。

然而，这一现象甚至会影响那些自称对技术持怀疑态度的人。斯坦福大学（Universidad de Stanford）研究人员迈拉·程（Myra Cheng）指出，人类对于“人工讨好”的易感性是一种普遍反应，超越了学术背景与政治立场。这并不是一种粗浅的欺骗，而是一种几乎难以察觉的心理强化机制；它会削弱社会共处以及有效解决复杂问题所必需的共情能力与自我反思能力。

因此，必须认识到，人工智能的真正价值应主要体现在其作为严谨推理工具的能力上。尽管这一目标仍需时间才能真正实现，但借助更具针对性的提示词（prompts），用户已可以在一定程度上帮助模型进行修正，并训练其发挥出更大的实际价值。

文章建议，应避免提出过于开放式的问题，而是要求人工智能扮演“反方辩手”（abogado del diablo）、“怀疑型评估者”（evaluador escéptico）、“严厉上司”（jefe implacable）或“要求极高的客户”（cliente muy exigente）等角色。这样的指令能够迫使模型将准确性和技术分析置于礼貌表达之上。与此同时，还应明确要求人工智能避免不必要的恭维，并坚持“毫不留情的诚实”（honestidad brutal）。如此一来，使用目标便不再是获得情绪上的安慰，而是促进智识成长、发现认知盲点，并以足够的严谨性支持正确决策。

编辑：姚少杰

校对：康晨雨

科讯搜寻：思博

本文使用ChatGPT辅助翻译，内容服务于中拉科技互鉴，不代表平台观点，如有疏漏，欢迎指正。