📢 转载信息
原文链接:https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
原文作者:Microsoft Research
我们很高兴地宣布推出 FARA-7B,这是一个高效的 70 亿参数模型,专为计算机使用而设计。它在基础模型中率先整合了强大的、经过指令调整的 Reasoning-Action-Feedback (RAF) 模块,使 FARA-7B 能够在处理复杂、多步骤任务时表现出卓越的稳健性和推理能力。我们发现,FARA-7B 在涉及计算机操作的基准测试(例如在 AutoGPT 模拟中)上表现出色,甚至超过了我们最近在 AgentBench 上测试的 GPT-4o 模型。
超越传统LLM的限制
LLM 在自然语言处理方面取得了巨大进步,但在计算机使用方面,它们通常需要外部工具或复杂的提示工程来完成多步骤任务。FARA-7B 通过在其核心架构中嵌入 RAF 模块来解决这一挑战。RAF 模块通过在推理、行动和反馈循环中迭代地优化策略,增强了模型的规划和执行能力。
FARA-7B 专为无缝的工具集成和复杂的任务执行而构建,它代表了向更具智能体性的人工智能系统迈出的重要一步。它的设计使其能够有效地在动态环境中导航、使用工具并从错误中学习,而无需过度依赖外部框架或大量上下文。
核心创新:Reasoning-Action-Feedback (RAF) 模块
RAF 模块是 FARA-7B 的核心。它允许模型在每次迭代中评估其进展并调整其策略:
- 推理 (Reasoning): 模型分析当前状态和目标,确定下一步最佳行动。
- 行动 (Action): 模型执行一个具体的、工具可操作的步骤。
- 反馈 (Feedback): 模型接收执行结果,并利用此信息来指导下一次推理迭代。
这种循环结构使 FARA-7B 能够处理需要持续决策和适应性的任务,这对于计算机使用环境至关重要。
评估与性能
我们在几个关键的计算机使用基准测试中评估了 FARA-7B 的性能:
AgentBench 结果
在 AgentBench 上,FARA-7B 展现出强大的能力,特别是在涉及使用操作系统工具和网络交互的测试中。我们的结果表明,FARA-7B 在网站导航和文件管理等任务上的成功率显著高于同等规模的其他模型。
我们与 GPT-4o 进行了比较,后者通常被认为是实现复杂计算机使用任务的黄金标准。在我们的特定测试集中,FARA-7B 取得了略微领先的性能,证明了其架构效率的有效性。

效率考虑
尽管性能出色,FARA-7B 仍然是一个 7B 参数模型,这使其在推理速度和部署成本方面具有显著优势。RAF 模块的设计旨在最小化开销,确保模型不仅智能,而且实用。
结论与未来展望
FARA-7B 的发布标志着在构建能够真正与计算环境交互的 AI 代理方面迈出了重要一步。通过集成强大的 RAF 模块,我们证明了即使是中等规模的模型也可以在复杂的、面向行动的任务中实现最先进的性能。
我们期待研究人员和开发者使用 FARA-7B 来推进智能体 AI 的研究,并探索其在实际计算机自动化中的潜力。
了解更多信息和访问代码:
我们相信 FARA-7B 将成为未来自主智能体系统开发的重要基石。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区