目 录CONTENT

文章目录

AI 时代的内容审核难题:Moonbounce 获 1200 万美元融资,通过“代码策略”构建实时防线

Administrator
2026-04-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2026/04/03/moonbounce-fundraise-content-moderation-for-the-ai-era/

原文作者:Rebecca Bellan


2019 年,Brett Levenson 离开苹果加入 Facebook 负责业务完整性团队时,正值 Facebook 深陷剑桥分析(Cambridge Analytica)丑闻。当时他认为,凭借更好的技术就能解决 Facebook 的内容审核问题,但很快他意识到,问题的根源远不止于技术。

Levenson 发现,人类审核员通常被迫记忆一份长达 40 页的、由机器翻译成各种语言的政策文档。面对每一条被标记的内容,他们只有约 30 秒的时间做出决定:不仅要判断内容是否违规,还要决定如何处置——屏蔽、封禁用户,还是限制传播。据 Levenson 称,这些仓促做出的判断,“准确率仅比抛硬币好一点点”。

“策略即代码”的诞生

“这种感觉就像在抛硬币,人类审核员根本无法准确执行政策,而且往往在伤害发生数天后才能做出反应,”Levenson 在接受 TechCrunch 采访时表示。

这种滞后的、被动的方法在面对资金雄厚、手段灵活的对抗性行为时已难以为继。随着 AI 聊天机器人的崛起,问题愈发严重,导致了包括 AI 诱导青少年自残、生成式 AI 绕过安全过滤产生违规图像等一系列高调事件。

Levenson 的挫败感促成了一个构想:“策略即代码”(policy as code)——将静态的政策文档转变为可执行、可更新的逻辑,并与执法机制紧密耦合。这一洞察催生了 Moonbounce 的诞生。该公司周五宣布已完成 1200 万美元的融资,由 Amplify Partners 和 StepStone Group 共同领投。

实时安全防线

Moonbounce 致力于在内容生成环节(无论是用户生成还是 AI 生成)提供额外的安全层。该公司训练了自己的大型语言模型(LLM)来查阅客户的政策文档,在运行时评估内容,并在 300 毫秒内提供响应并采取行动。根据客户偏好,系统可以选择减缓分发等待人工复审,或者直接在瞬间屏蔽高风险内容。

目前,Moonbounce 主要服务于三大垂直领域:处理用户生成内容的平台(如约会应用)、构建角色或陪伴类产品的 AI 公司,以及 AI 图像生成商。Moonbounce 的客户包括 AI 陪伴初创公司 Channel AI、图像和视频生成公司 Civitai,以及角色扮演平台 Dippy AI 和 Moescape。

“安全性实际上可以成为一种产品优势,”Levenson 说,“但它从未被视为优势,因为它总是被当作事后补救措施,而不是集成在产品中。我们看到客户正以创新方式利用我们的技术,将安全变为产品故事中的差异化因素。”

应对未来的挑战

随着 AI 聊天机器人面临越来越大的法律和声誉压力,内部安全防护机制的失效已成为严峻的合规性问题。Levenson 指出,AI 公司正越来越多地寻求外部协助以加强安全基础设施。

“作为第三方,我们位于用户和聊天机器人之间,因此我们的系统不会像聊天对话本身那样被大量上下文淹没,”Levenson 解释道,“聊天机器人本身可能需要记住之前成千上万个 token 的内容,而我们只关注在运行时强制执行规则。”

Moonbounce 的下一个技术重点是“迭代引导”(iterative steering),旨在应对类似 Character AI 此前引发的极端案例。系统不会在有害话题出现时简单地选择粗暴拒绝,而是通过实时修改提示词,引导机器人转而提供更具支持性的回应。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区