AI 时代的内容审核难题：Moonbounce 获 1200 万美元融资，通过“代码策略”构建实时防线-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://techcrunch.com/2026/04/03/moonbounce-fundraise-content-moderation-for-the-ai-era/

原文作者：Rebecca Bellan

2019 年，Brett Levenson 离开苹果加入 Facebook 负责业务完整性团队时，正值 Facebook 深陷剑桥分析（Cambridge Analytica）丑闻。当时他认为，凭借更好的技术就能解决 Facebook 的内容审核问题，但很快他意识到，问题的根源远不止于技术。

Levenson 发现，人类审核员通常被迫记忆一份长达 40 页的、由机器翻译成各种语言的政策文档。面对每一条被标记的内容，他们只有约 30 秒的时间做出决定：不仅要判断内容是否违规，还要决定如何处置——屏蔽、封禁用户，还是限制传播。据 Levenson 称，这些仓促做出的判断，“准确率仅比抛硬币好一点点”。

“策略即代码”的诞生

“这种感觉就像在抛硬币，人类审核员根本无法准确执行政策，而且往往在伤害发生数天后才能做出反应，”Levenson 在接受 TechCrunch 采访时表示。

这种滞后的、被动的方法在面对资金雄厚、手段灵活的对抗性行为时已难以为继。随着 AI 聊天机器人的崛起，问题愈发严重，导致了包括 AI 诱导青少年自残、生成式 AI 绕过安全过滤产生违规图像等一系列高调事件。

Levenson 的挫败感促成了一个构想：“策略即代码”（policy as code）——将静态的政策文档转变为可执行、可更新的逻辑，并与执法机制紧密耦合。这一洞察催生了 Moonbounce 的诞生。该公司周五宣布已完成 1200 万美元的融资，由 Amplify Partners 和 StepStone Group 共同领投。

实时安全防线

Moonbounce 致力于在内容生成环节（无论是用户生成还是 AI 生成）提供额外的安全层。该公司训练了自己的大型语言模型（LLM）来查阅客户的政策文档，在运行时评估内容，并在 300 毫秒内提供响应并采取行动。根据客户偏好，系统可以选择减缓分发等待人工复审，或者直接在瞬间屏蔽高风险内容。

目前，Moonbounce 主要服务于三大垂直领域：处理用户生成内容的平台（如约会应用）、构建角色或陪伴类产品的 AI 公司，以及 AI 图像生成商。Moonbounce 的客户包括 AI 陪伴初创公司 Channel AI、图像和视频生成公司 Civitai，以及角色扮演平台 Dippy AI 和 Moescape。

“安全性实际上可以成为一种产品优势，”Levenson 说，“但它从未被视为优势，因为它总是被当作事后补救措施，而不是集成在产品中。我们看到客户正以创新方式利用我们的技术，将安全变为产品故事中的差异化因素。”

应对未来的挑战

随着 AI 聊天机器人面临越来越大的法律和声誉压力，内部安全防护机制的失效已成为严峻的合规性问题。Levenson 指出，AI 公司正越来越多地寻求外部协助以加强安全基础设施。

“作为第三方，我们位于用户和聊天机器人之间，因此我们的系统不会像聊天对话本身那样被大量上下文淹没，”Levenson 解释道，“聊天机器人本身可能需要记住之前成千上万个 token 的内容，而我们只关注在运行时强制执行规则。”

Moonbounce 的下一个技术重点是“迭代引导”（iterative steering），旨在应对类似 Character AI 此前引发的极端案例。系统不会在有害话题出现时简单地选择粗暴拒绝，而是通过实时修改提示词，引导机器人转而提供更具支持性的回应。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

AI 时代的内容审核难题：Moonbounce 获 1200 万美元融资，通过“代码策略”构建实时防线

“策略即代码”的诞生

实时安全防线

应对未来的挑战

评论区