AI健康工具激增，但它们的实际表现如何？-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.technologyreview.com/2026/03/30/1134795/there-are-more-ai-health-tools-than-ever-but-how-well-do-they-work/

原文作者：Grace Huckins (MIT Technology Review)

本月初，微软发布了 Copilot Health，这是其 Copilot 应用内的一个新板块，用户可以在此关联医疗记录并针对健康问题进行咨询。此前几天，亚马逊也宣布其基于大模型的医疗 AI 工具（原仅限 One Medical 会员使用）现已面向公众广泛开放。这些产品紧随 OpenAI 一月份发布的 ChatGPT Health 以及 Anthropic 的 Claude 的步伐，标志着“大众健康 AI”正式成为一股时代潮流。

鉴于许多人难以通过传统医疗系统获取健康建议，市场上对这类健康聊天机器人的需求显而易见。一些研究表明，目前的大型语言模型 (LLM) 有能力提供安全且有用的建议。然而，专家指出，这些工具在广泛投放市场之前，应经过独立的、更严格的第三方评估。

A photo illustration shows a sick woman in bed on a laptop with speech bubbles in the background.

亟待解决的信任与透明度问题

在医疗这样高风险的领域，单凭企业对其自身产品进行评估往往是不够的，尤其是当这些评估报告不对外公开时。即便企业进行了严谨的科学研究——例如 OpenAI 似乎确实在这么做——它们仍可能存在研究盲点，而广大的科研共同体本可以提供补足。

牛津互联网研究所的博士候选人 Andrew Bean 表示：“只要人们对医疗服务的需求持续存在，我们就应当积极探索所有可行的路径。这些模型达到目前的应用水平是完全可信的，但核心证据基础必须扎实。”

AI 医疗的爆发点：供需双驱动

开发者们认为，这些医疗产品的推出是因为大模型在医学建议上已经具备了实质性的处理能力。微软 AI 医疗副总裁、前外科医生 Dominic King 指出，生成式 AI 在回答健康问题和提供高质量反馈方面的巨大进步是其团队开发 Copilot Health 的核心原因。

另一个关键驱动因素是市场需求。微软的一项研究显示，其 Copilot 应用每天接收 5000 万个健康相关咨询，医疗已成为该平台最热门的讨论话题。这种趋势并非偶然，许多用户倾向于向一个全天候、不带偏见的机器人倾诉，这反映了当前医疗系统在获取难度上的痛点。

安全风险与独立评估的缺失

尽管业内普遍认为 AI 聊天机器人能改善现状，但专家们对缺乏独立安全性测试表示担忧。目前，虽然像推荐锻炼计划等建议相对无害，但涉及分诊、诊断或治疗方案的建议则存在明显风险。

尽管 ChatGPT Health 等工具均明确声明“不用于诊断或治疗”，但用户往往会忽视这些警告。牛津大学的 Bean 指出，即便模型在虚拟场景中能识别病症，但普通用户在缺乏医疗常识的情况下，可能无法提供关键信息，或误解 AI 给出的结论。因此，在这些工具发布前，进行人类受试者的受控测试至关重要。

目前，尽管像 Google 的 AMIE 等研究项目展现了极高的诊断准确率，但由于商业化进程和安全合规限制，这些严谨的验证方法尚未大规模应用于消费级产品。对于行业而言，建立一套被广泛认可、由第三方权威机构主导的评估体系，或许才是保障用户安全的唯一出路。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

AI健康工具激增，但它们的实际表现如何？

亟待解决的信任与透明度问题

AI 医疗的爆发点：供需双驱动

安全风险与独立评估的缺失

评论区