使用 Amazon Nova Sonic 构建实时语音助手并与级联架构进行比较-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/building-real-time-voice-assistants-with-amazon-nova-sonic-compared-to-cascading-architectures/

原文作者：Daniel Wirjo, Lana Zhang, and Ravi Thakur

语音人工智能座席正在重塑我们与技术互动的方式。从客户服务和医疗协助到家庭自动化和个人效率，这些智能虚拟助手正迅速跨行业普及。它们自然语言处理能力、全天候可用性和日益增强的复杂性，使其成为寻求效率的企业和期望无缝数字体验的个人的宝贵工具。

Amazon Nova Sonic 通过双向流媒体接口提供实时、类人语音对话。它能理解不同的说话风格，并生成富有表现力的回复，这些回复能适应所说的词语以及说话的方式。该模型支持多种语言，并提供男性和女性声音，非常适合客户支持、营销电话、语音助手和教育应用。

与Amazon Nova Sonic等较新的架构相比——该架构将语音理解和生成结合到一个单一的端到端模型中——经典的AI语音聊天系统使用带有顺序处理的级联架构。这些系统通过一个明确的管道处理用户的语音：级联模型方法将语音AI处理分解为不同的组件：

语音活动检测 (VAD)：需要一个预处理的VAD来检测用户何时暂停或停止说话。
语音转文本 (STT)：用户的语音通过自动语音识别 (ASR) 模型转换为书面文本格式。
大型语言模型 (LLM) 处理：转录的文本随后被馈送到LLM或对话管理器，后者会根据对话的上下文分析输入并生成相关的文本回复。
文本转语音 (TTS)：AI的文本回复随后由TTS模型转换回听起来自然的语音音频，然后播放给用户。

下图说明了用户与Nova Sonic进行实时语音对话与使用级联语音助手解决方案时的概念流程。

级联架构的核心挑战

虽然级联架构提供了模块化设计、专业组件和可调试性等优势，但其缺点在于累积延迟和互动性降低。

级联效应

考虑一个处理简单天气查询的语音助手。在级联管道中，每个处理步骤都会引入延迟和潜在错误。客户实施案例显示，最初的误解如何可能在管道中累积，通常导致不相关的回复。这种级联效应使故障排除复杂化，并对整体用户体验产生了负面影响。

时间至关重要

真正的对话需要自然的计时。顺序处理会在响应时间上造成明显的延迟。这种对话流程的中断会导致用户感到不适。

集成挑战

语音AI需要的不仅仅是语音处理——它需要自然的交互模式。客户反馈强调，编排多个组件使得处理诸如中断或快速交换等动态对话元素变得困难。工程资源往往更多地集中在管道管理上。

资源现实

级联架构需要为每个组件提供独立的计算资源、监控和维护。这种架构复杂性影响了开发速度和运营效率。随着对话量的增加，扩展挑战也随之加剧，影响系统可靠性和成本优化。

对语音助手开发的影响

这些见解促成了 Nova Sonic 开发中的关键架构决策，解决了对统一语音到语音处理的基本需求，从而在无需管理复杂多组件的情况下，实现自然、响应迅速的语音体验。

比较这两种方法

为了比较构建语音AI座席的语音到语音方法和级联方法，请考虑以下几点：

考量因素	语音到语音 (Nova Sonic)	级联模型
延迟	优化的延迟性能和 TTFA 我们使用“首次音频时间”(TTFA) 指标来评估 Nova Sonic 模型的延迟性能。TTFA 衡量从用户语音查询完成到收到响应音频的第一个字节所经过的时间。请参阅技术报告和模型卡。	潜在的额外延迟和错误级联模型可以跨语音识别、语言理解和语音生成使用多个模型，但它们面临着额外的延迟和阶段之间潜在的错误传播的挑战。通过使用 Pipecat 和 LiveKit 等现代异步编排框架，您可以最大限度地减少延迟。流式组件和使用文本到语音填充器有助于保持自然的对话流程并减少延迟
架构和开发复杂性	简化的架构 Nova Sonic 在单个模型中集成了语音转文本、自然语言理解和文本转语音，内置了工具使用和打断检测功能，为关键输入和输出事件提供事件驱动架构，并通过双向流媒体 API 简化了开发人员体验。	架构潜在复杂性开发人员需要为管道的每个阶段选择一流的模型，同时协调额外的组件，例如用于委托座席和工具使用的异步管道、TTS 填充器和 (VAD)。
模型选择和定制	对单个组件的控制较少 Amazon Nova Sonic 允许定制声音、内置工具使用以及与Amazon Bedrock 知识库和Amazon Bedrock AgentCore 的集成。然而，与完全模块化的级联系统相比，它对单个模型组件的控制粒度较小。	对每个步骤的潜在粒度控制级联模型通过允许独立调整、替换和优化每个模型组件（如 STT、语言理解和 TTS），从而提供对每个步骤的更多控制。这包括来自Amazon Bedrock Marketplace、Amazon SageMaker AI 和微调模型的组件。这种模块化支持模型的选择和灵活性，非常适合需要定制性能的复杂或专业能力。
成本结构	集成方法带来的成本结构简化 Amazon Nova Sonic 按基于 token 的消耗模型定价。	与多个组件相关的潜在成本复杂性级联模型由多个组件组成，需要估算它们的成本。在规模化和高流量情况下这一点尤为重要。
语言和口音支持	Nova Sonic 支持的语言	通过专业模型实现的潜在更广泛的语言支持，包括在对话中途切换语言的能力
区域可用性	Nova Sonic 支持的区域	由于模型选择广泛以及能够在Amazon Elastic Kubernetes Service (Amazon EKS) 或Amazon SageMaker 上自托管模型，因此潜在支持的区域更广。

这两种方法也有一些共同的特征。

电话和传输选项	级联方法和语音到语音方法都支持各种电话和传输协议，如 WebRTC 和 WebSocket，从而能够通过网络和电话网络进行实时、低延迟的音频流传输。这些协议有助于实现自然对话体验所必需的无缝双向音频交换，使语音AI系统能够轻松集成到现有通信基础设施中，同时保持响应速度和音频质量。
评估、可观测性和测试	级联和语音到语音语音AI方法都可以系统地进行评估、观察和测试，以进行可靠的比较。建议投资于语音AI评估和可观测性系统，以确保持续准确性和生产性能。这样的系统应能够端到端地追踪整个输入到输出管道，捕获指标和对话数据，以全面评估随时间推移的质量、延迟和对话稳健性。
开发框架	领先的开源语音AI框架，如 Pipecat 和 LiveKit，都为级联和语音到语音方法提供了良好的支持。这些框架提供了模块化、灵活的管道和实时处理功能，开发人员可以利用这些功能来有效构建、定制和编排不同组件和交互风格的语音AI模型。

何时使用每种方法

下图提供了一个实用的框架来指导您的架构决策：

当以下情况时，请使用语音到语音：

实施的简便性很重要
用例符合 Nova Sonic 的能力范围
您正在寻找一种感觉自然且能提供低延迟的实时聊天体验

当以下情况时，请使用级联模型：

需要对单个组件进行定制
您需要使用来自Amazon Bedrock Marketplace、Amazon SageMaker AI 或针对特定领域的微调模型的专业模型
您需要对 Nova Sonic 未涵盖的语言或口音的支持
用例需要在特定阶段进行专业化处理

结论

在本博文中，您了解了 Amazon Nova Sonic 如何设计用于解决级联方法面临的一些挑战，简化语音AI座席的构建，并提供自然的对话能力。我们还提供了何时选择每种方法的指南，以帮助您为语音AI项目做出明智的决策。如果您希望增强现有的级联语音系统，您现在已经掌握了迁移到 Nova Sonic 的基础知识，以便您可以使用简化的架构提供无缝、实时的对话体验。

要了解更多信息，请参阅Amazon Nova Sonic，并联系您的客户经理，探讨如何加速您的语音AI计划。

资源

作者简介

Daniel Wirjo 是 AWS 的解决方案架构师，专注于 AI 和 SaaS 初创公司。作为一名前初创公司 CTO，他热衷于与创始人及工程领导者合作，共同推动 AWS 上的增长和创新。工作之余，Daniel 喜欢手捧咖啡散步，欣赏自然风光，并学习新思想。

Ravi Thakur 是 AWS 位于北卡罗来纳州夏洛特的资深解决方案架构师。他在零售、金融服务、医疗保健和能源与公用事业等多个行业拥有跨行业经验，擅长利用良好架构的云模式来解决复杂的业务挑战。他的专业知识涵盖微服务、云原生架构和生成式 AI。工作之余，Ravi 喜欢骑摩托车和家庭出游。

Lana Zhang 是 AWS 全球专家组织中专注于生成式 AI 的高级专家解决方案架构师。她专注于 AI/ML，重点关注 AI 语音助手和多模态理解等用例。她与媒体和娱乐、游戏、体育、广告、金融服务和医疗保健等多个行业的客户密切合作，帮助他们通过 AI 转变业务解决方案。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

使用 Amazon Nova Sonic 构建实时语音助手并与级联架构进行比较