从人体动作预测自我中心视频 (PEVA)：用于具身智能体的世界模型-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2025/07/01/peva/

原文作者：bair.berkeley.edu

从人体动作预测自我中心视频 (PEVA)。给定过去的视频帧和指定所需3D姿态变化的动作，PEVA预测下一个视频帧。我们的结果表明，给定第一帧和一系列动作，我们的模型可以生成原子动作的视频 (a)，模拟反事实情况 (b)，并支持长视频生成 (c)。

近年来，世界模型在学习模拟未来结果以用于规划和控制方面取得了显著进展。从直观物理到多步视频预测，这些模型的强大性和表现力不断增强。但很少有模型是专为真正的具身智能体设计的。为了创建一个用于具身智能体的世界模型，我们需要一个在真实世界中行动的真实具身智能体。一个真实的具身智能体拥有一个物理上接地、复杂的动作空间，而不是抽象的控制信号。它们还必须在多样化的现实场景中行动，并具有自我中心视角，而不是关注美学场景和固定摄像头。

💡 提示：点击任何图像以全分辨率查看。

为什么这很困难

动作和视觉高度依赖于上下文。 相同的视图可能导致不同的运动，反之亦然。这是因为人类在复杂的、具身的、目标导向的环境中行动。
人体控制是高维且结构化的。 全身运动跨越48个以上的自由度，具有分层、时间依赖的动态性。
自我中心视角揭示意图但隐藏身体。 第一人称视觉反映了目标，但没有反映运动执行，模型必须从不可见的物理动作中推断出后果。
感知滞后于动作。 视觉反馈通常会延迟几秒钟，这需要进行长视距预测和时间推理。

为了开发用于具身智能体的世界模型，我们必须将方法建立在满足这些标准的基础之上。人类会常规地先看后动——我们的眼睛锁定目标，大脑对结果进行简短的视觉“模拟”，然后身体才会移动。在每时每刻，我们的自我中心视角既是环境的输入，也反映了下一个动作的意图/目标。当我们考虑身体运动时，我们应该同时考虑脚部动作（移动和导航）和手部动作（操作），或者更笼统地说，全身控制。

我们做了什么？

我们训练了一个模型来预测Predict Ego-centric Video from human Actions (PEVA)，用于全身条件下的自我中心视频预测。PEVA以身体关节层次结构组织的运动学姿态轨迹为条件，学习模拟物理人体动作如何从第一人称视角影响环境。我们对Nymeria——一个配对真实世界自我中心视频和身体姿态捕捉的大规模数据集——训练了一个自回归条件扩散Transformer。我们的分层评估协议测试了日益具有挑战性的任务，为模型的具身预测和控制能力提供了全面的分析。这项工作代表了通过人类视角视频预测来模拟复杂真实世界环境和具身智能体行为的初步尝试。

方法

来自运动的结构化动作表示

为了弥合人体运动和自我中心视觉之间的鸿沟，我们将每个动作表示为一个丰富的、高维的向量，捕获全身动力学和详细的关节运动。我们没有使用简化的控制信号，而是根据身体的运动学树对全局平移和相对关节旋转进行编码。运动在3D空间中表示，根部平移有3个自由度，上身关节有15个。使用欧拉角表示相对关节旋转会产生一个48维的动作空间（3 + 15 × 3 = 48）。运动捕捉数据通过时间戳与视频对齐，然后从全局坐标转换为以骨盆为中心的局部坐标系，以实现位置和方向的不变性。所有位置和旋转都经过归一化以确保学习稳定。每个动作都捕获了帧间的运动变化，使模型能够随着时间将物理运动与视觉后果联系起来。

PEVA 的设计：自回归条件扩散 Transformer

虽然来自导航世界模型的条件扩散 Transformer (CDiT) 使用简单的控制信号（如速度和旋转），但对全身人体运动的建模带来了更大的挑战。人体动作是高维的、时间上延伸的，并且受到物理约束。为了应对这些挑战，我们在三个方面扩展了 CDiT 方法：

随机时间步跳跃 (Random Timeskips)：使模型能够学习短期运动动力学和长期活动模式。
序列级训练 (Sequence-Level Training)：通过对每个帧前缀应用损失来对整个运动序列进行建模。
动作嵌入 (Action Embeddings)：将时间 t 的所有动作连接成一个 1D 张量，以条件化每个 AdaLN 层，以处理高维度的全身运动。

采样和展开策略

在测试时，我们通过以一组过去的上下文帧为条件来生成未来帧。我们将这些帧编码为潜在状态，并向目标帧添加噪声，然后使用我们的扩散模型对其进行逐步去噪。为了加快推理速度，我们限制了注意力，其中图像内注意力仅应用于目标帧，上下文交叉注意力仅应用于最后一帧。对于动作条件下的预测，我们使用自回归展开策略。从上下文帧开始，我们使用 VAE 编码器对它们进行编码，并附加当前动作。然后模型预测下一帧，该帧被添加到上下文中，同时丢弃最旧的帧，该过程对序列中的每个动作重复。最后，我们使用 VAE 解码器将预测的潜在变量解码为像素空间。

原子动作

我们将复杂的人体运动分解为原子动作——例如手部动作（上、下、左、右）和全身动作（前进、旋转）——以测试模型对特定关节级运动如何影响自我中心视角的理解。我们在此处包含一些样本：

身体动作

向前移动

向左旋转

向右旋转

左手动作

左手向上移动

左手向下移动

左手向左移动

左手向右移动

右手动作

右手向上移动

右手向下移动

右手向左移动

右手向右移动

长序列展开 (Long Rollout)

在这里，您可以看到模型在扩展的预测视距内保持视觉和语义一致性的能力。我们在此展示了一些 PEVA 基于全身运动生成连贯的 16 秒展开的样本。我们在此包含了一些视频样本和图像样本供您仔细查看：

序列 1

序列 2

序列 3

规划 (Planning)

PEVA 可用于规划，方法是模拟多个动作候选，并根据其与目标的感知相似度（由 LPIPS 衡量）对它们进行评分。

在此示例中，它排除了通往水槽或户外的路径，找到了打开冰箱的正确路径。

在此示例中，它排除了通往抓取附近植物和去厨房的路径，同时找到了通往架子的合理动作序列。

实现视觉规划能力

我们根据“导航世界模型”[arXiv:2412.03572] 中介绍的方法，将规划制定为能量最小化问题，并使用交叉熵方法 (CEM) 执行动作优化。具体来说，我们优化左臂或右臂的动作序列，同时固定身体的其他部位。下面展示了由此产生的计划的代表性示例：

在此案例中，我们能够预测一系列抬起右臂以够到搅拌棒的动作序列。我们看到我们方法的局限性，因为我们只预测右臂，所以我们没有预测相应地向下移动左臂。

在此案例中，我们能够预测一系列够向水壶的动作序列，但未能像目标中那样抓住它。

在此案例中，我们能够预测一系列向内收缩左臂的动作序列，类似于目标。

定量结果

我们根据多个指标评估 PEVA，以证明其从全身动作生成高质量自我中心视频的有效性。我们的模型在感知质量方面始终优于基线，在长时间范围内保持一致性，并显示出随着模型规模的强大扩展能力。

基线感知指标

不同模型下的基线感知指标比较。

原子动作性能

不同模型在生成原子动作视频方面的比较。

FID 比较

不同模型和时间范围的 FID 比较。

扩展性 (Scaling)

PEVA 具有良好的扩展能力。更大的模型带来更好的性能。

未来方向

我们的模型在从全身运动预测自我中心视频方面显示出有希望的结果，但它仍然是实现具身规划的早期一步。规划仅限于模拟候选手臂动作，并且缺乏长视距规划和完整的轨迹优化。将 PEVA 扩展到闭环控制或交互式环境是关键的下一步。该模型目前缺乏对任务意图或语义目标的明确调节。我们的评估使用图像相似性作为代理目标。未来的工作可以利用将 PEVA 与高层次目标调节和对象中心表示的集成相结合。

致谢

作者感谢 Rithwik Nukala 在原子动作标注方面的帮助。我们感谢 Katerina Fragkiadaki、Philipp Krähenbühl、Bharath Hariharan、Guanya Shi、Shubham Tulsiani 和 Deva Ramanan 提供的有益建议和反馈，以改进论文；感谢 Jianbo Shi 关于控制理论的讨论；感谢 Yilun Du 在扩散强迫方面的支持；感谢 Brent Yi 在人体运动相关工作方面的帮助，以及 Alexei Efros 关于世界模型的讨论和辩论。这项工作得到了 ONR MURI N00014-21-1-2801 的部分资助。

了解更多详情，请阅读完整论文或访问项目网站。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

从人体动作预测自我中心视频 (PEVA)：用于具身智能体的世界模型