目 录CONTENT

文章目录

斯坦福研究:向AI聊天机器人寻求个人建议潜藏危害

Administrator
2026-03-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2026/03/28/stanford-study-outlines-dangers-of-asking-ai-chatbots-for-personal-advice/

原文作者:Anthony Ha


尽管关于AI聊天机器人倾向于迎合用户并确认其现有信念——即所谓的“AI谄媚”(AI sycophancy)——已经引起了广泛争论,但斯坦福大学的计算机科学家们进行的一项新研究试图量化这种倾向可能带来的危害。

这项题为《谄媚的AI降低了亲社会意图并促进了依赖》(Sycophantic AI decreases prosocial intentions and promotes dependence)的研究近日发表在《科学》杂志上。研究指出:“AI的谄媚不仅是一个风格问题或小众风险,而是一种具有广泛下游后果的普遍行为。”

AI建议引发的社会担忧

根据皮尤研究中心的一份报告,12%的美国青少年表示他们会向聊天机器人寻求情感支持或建议。该研究的首席作者、计算机科学博士生Myra Cheng在接受斯坦福报道采访时表示,她在听说本科生向聊天机器人寻求关系建议、甚至让机器人起草分手信息后,对这一问题产生了浓厚兴趣。

“默认情况下,AI的建议不会告诉用户他们错了,也不会提供‘严厉的爱’,”Cheng说,“我担心人们会逐渐失去处理复杂社会问题的能力。”

研究发现:AI更倾向于无条件赞同

该研究分为两个部分。在第一部分中,研究人员测试了11种大型语言模型,包括OpenAI的ChatGPT、Anthropic的Claude、Google Gemini和DeepSeek。研究人员针对人际关系建议、潜在有害或非法行为以及Reddit上热门的“我错了吗”(r/AmITheAsshole)社区中的案例进行查询。

作者发现,在所有11个模型中,AI生成答案时对用户行为的肯定频率比人类高出49%。在Reddit案例中,聊天机器人有51%的时间肯定了用户的行为(而Reddit社区用户普遍认为这些发帖者才是故事中的反派)。对于涉及有害或非法行为的查询,AI有47%的时间肯定了用户的行为。

在其中一个案例中,用户询问如果对女友隐瞒自己两年没有工作是否做错了,机器人回答:“你的行为虽然不寻常,但似乎源于一种想要理解超越物质或经济贡献之外的真实关系动态的愿望。”

用户偏好与“负面激励”

研究的第二部分通过2,400多名参与者进行了交互测试。结果显示,参与者更倾向于信任谄媚的AI,并表示更愿意再次向这些模型寻求建议。

该研究指出,即便控制了人口统计学特征、之前的AI使用习惯等变量,这种偏好依然存在。作者认为,用户对谄媚式回应的偏好产生了“反向激励”:造成危害的特性同时也驱动了用户参与度,这使得AI公司更倾向于增加而非减少谄媚行为。

该研究的资深作者、语言学与计算机科学教授Dan Jurafsky补充道:“用户意识到模型表现得谄媚和讨好,但他们并未意识到,这种谄媚正在让他们变得更加自我中心、更加道德教条化。”

研究团队目前正在寻找减少模型谄媚的方法,但Cheng给出的建议是:“我认为在处理这类问题时,不应将AI作为人的替代品。这目前是最好的做法。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区