VLA 模型解析：让机器人同时看懂世界、执行动作

2026 年，机器人领域最热门的技术话题不再是"能不能造出人形机器人"，而是"如何让机器人真正理解人想让它们做什么"。

这个问题的答案，正在从 VLA（Vision-Language-Action）模型中浮现。

VLA 是 2025-2026 年机器人 AI 研究的核心方向。它将视觉、语言和动作统一在一个模型架构中，让机器人能够像人类一样——“看着场景、听着指令、执行动作”。本文将深入解析 VLA 的工作原理、主流架构对比，以及它为何被认为是机器人基础模型的终极形态。

一、为什么 VLA 如此关键

1.1 语言模型给了机器人"大脑"，但没有给"身体"

过去两年，大语言模型（LLM）给 AI 带来了理解语言的能力。但这对于机器人来说远远不够——机器人需要的不只是"读懂指令"，而是"把指令变成手臂的移动"。

举一个简单的例子：人类说"把桌上的咖啡杯拿起来放到柜子里"。这个指令对 GPT-4 来说毫无难度。但对机器人来说，这意味着：

视觉：识别咖啡杯的位置、大小、形状
空间推理：判断如何绕过桌上的其他物品
精细控制：用合适的力度抓取，移动到目标位置
实时调整：杯子可能滑动，手腕需要微调

这就是 VLA 要解决的问题——在同一个模型里，同时完成感知、理解和动作输出。

1.2 VLA 的核心挑战：两个本质不同的世界

VLMs（视觉语言模型）的训练基于离散 token 预测（next token prediction），语言和图像都可以被离散化为 token 流。但动作（action）本质上是一个连续的物理量——机器人关节的角度、末端执行器的位置、力矩大小——这些都需要毫秒级精度的连续控制。

直接把 VLM 用于机器人动作输出会遇到根本性困难：

离散 vs 连续：语言模型天然适合离散 token，VLA 则需要在离散语义理解和连续动作控制之间找到平衡
时序要求：语言模型允许"思考一会儿再回答"，机器人动作要求实时响应
安全约束：动作输出错误可能造成物理损害，需要额外的安全层

VLA 的研究，就是在解决这个"离散语义"与"连续动作"之间的鸿沟。

二、VLA 架构全景：三条技术路线

截至 2026 年初，主流 VLA 架构形成了三条清晰的技术路线：

2.1 路线一：离散动作 + 自回归（OpenVLA）

OpenVLA（Stanford + Berkeley，2024）是 VLA 领域的开创性工作。它将机器人动作空间离散化为 token，然后用标准的自回归方式预测动作序列。

架构特点：

视觉编码器（SigLIP/DINOv2）
        ↓
语言模型（Llama 2 / Vicuna）
        ↓
动作离散化层（Action Tokenizer）
        ↓
自回归动作预测

核心思路：将动作看作一种特殊的"语言"，通过大量机器人轨迹数据学会"机器人的语法"。

优点：

架构简洁，复用了成熟 LLM 基础设施
泛化能力强，能从互联网规模视觉语言数据中继承语义理解

缺点：

离散化会损失动作精度，高频控制场景表现不佳
自回归生成速度慢，难以满足实时控制要求

2.2 路线二：扩散模型 + 流匹配（π0）

π0（Physical Intelligence，2024年底）是目前性能最强的 VLA 方案之一。它的核心创新是用扩散/流匹配（Flow Matching）替代离散动作预测。

架构特点：

视觉编码器（PaliGemma） ──┐
                          ├──→ 融合模块 → 动作专家（Action Expert）
语言模型（PaliGemma）   ──┘         ↓
                                  流匹配（Flow Matching）
                                  ↓
                               连续动作输出

核心思路：将动作预测建模为"从噪声到目标动作的渐变过程"，而非离散的 token 序列。

π0 的预训练使用约 10,000 小时的跨机器人数据（7种不同机器人配置、68个任务），结合 Open X-Embodiment（OXE）开源数据集。这种大规模多机器人数据预训练让 π0 具备了出色的跨本体（cross-embodiment）泛化能力——学会一个技能后，可以迁移到不同形态的机器人上。

π0 的两阶段训练配方：

预训练阶段（Pre-training）：在海量多样化机器人数据上训练，建立基础动作能力
后训练阶段（Post-training）：在高质量、特定任务的精选数据上微调，实现精细化控制

这个两阶段配方与 LLM 的"预训练 + SFT"高度一致，暗示机器人基础模型正在复制语言模型的成功路径。

π0.5 的进化：

Physical Intelligence 在 π0 基础上推出了 π0.5，核心改进是引入层级推理架构：

第一阶段：预测高级文本子目标（“把衣服拿起来”）
第二阶段：基于子目标，预测低层级连续动作

π0.5 还引入了 FAST tokenizer（用于离散化状态表示）和层级动作解码，显著提升了复杂长程任务的表现。

2.3 路线三：自校正框架（Self-Correcting）

第三条路线试图解决 VLA 在执行过程中的错误累积问题。机器人执行一个长程任务时，早期的微小误差会逐步放大，导致任务失败。

典型方案是在 VLA 架构中引入一个校正环路（correction loop）：

环境观察 → VLA 推理 → 动作执行 → 结果校验 → 重新推理
                                       ↑
                              （如果失败则回退重试）

这种架构借鉴了语言模型中"思维链"（Chain-of-Thought）的思路——让机器人在动作执行过程中加入"思考"，而不是机械地执行预设序列。

三、跨本体学习：让一个模型控制所有机器人

VLA 最重要的特性之一是跨本体（cross-embodiment）泛化能力。

3.1 数据困境与 Open X-Embodiment 数据集

传统机器人训练面临严重的"数据孤岛"问题：每种机器人都有自己的数据集，数据量小、泛化差。MIT、UC Berkeley、Google DeepMind 等机构联合发布的 Open X-Embodiment（OXE） 数据集是解决这个问题的关键一步。

OXE 汇集了来自 20+ 个机构的机器人数据，覆盖 100+ 种机器人本体，是目前最大的开源机器人数据集。但数据量的增加本身并不够——VLA 架构需要能有效利用这些异构数据。

关键在于动作空间的标准化：不同机器人的关节数量不同、动作范围不同，需要一个统一的"机器人语言"来桥接这种异构性。

3.2 跨本体的本质：学会物理规律，而非学会某个机器人的动作

跨本体学习的深层逻辑是：机器人动作背后存在通用的物理规律——拿起物体需要对抗重力、抓取需要触觉反馈、放置需要空间位置判断。

优秀的 VLA 模型学到的是这些物理先验，而非特定机器人的关节角度。正是这种对物理规律的理解，让 π0 能在没见过的机器人上也能表现良好。

四、主流 VLA 模型横向对比

维度	OpenVLA	π0 / π0.5	GR00T N1.5
参数量	7B	3B（PaliGemma-base）	3B
视觉骨干	SigLIP + DINOv2	PaliGemma 3B	Eagle 2.5 + Qwen2.5
动作生成方式	离散自回归	流匹配（Flow Matching）	扩散/自回归混合
预训练数据	OXE + 专有	10K小时 + OXE	NVIDIA Omniverse 合成
跨本体泛化	良好	优秀	良好
推理速度	慢（自回归）	中等（流匹配并行）	快（硬件优化）
开源	是（Apache 2.0）	部分开源	部分开源
训练成本	高（需要大量A100）	高	高（依赖 Omniverse）
擅长场景	泛化型桌面任务	复杂长程操作	工业/物流场景

五、合成数据：解决机器人数据荒的钥匙

VLA 训练面临的最大瓶颈之一是真实机器人数据极度稀缺。10,000 小时的机器人数据听着很多，但对比 GPT-4 的训练语料规模——这只是沧海一粟。

合成数据（Synthetic Data） 正在成为破局关键：

5.1 仿真到现实（Sim-to-Real）

用高保真物理仿真器（NVIDIA Isaac Sim、Mujoco）生成海量机器人轨迹数据，然后迁移到真实机器人上。

关键难点是 Sim-to-Real Gap——仿真环境的物理参数（摩擦力、弹性、惯性等）与真实世界存在差异，直接迁移往往失败。主流解法包括：

域随机化（Domain Randomization）：在仿真中随机化物理参数，让模型学会适应各种变化
在线自适应：在真实机器人上收集少量数据，实时微调

5.2 世界模型生成数据

更前沿的方向是用世界模型直接生成机器人训练数据。例如给定"抓起红色方块"这个任务，世界模型可以生成数千种不同场景下的执行轨迹，而不需要真实的机器人。

这种"想象式训练"解决了真实数据采集成本高、场景覆盖不足的问题。

5.3 Genesis：物理准确的合成数据平台

Genesis（Physical Intelligence 孵化的新项目）是这个方向的代表。它构建了一个物理准确的仿真平台，能生成符合真实物理规律的训练数据，绕过了传统仿真器的参数标定难题。

六、2026 年的关键突破与依然存在的挑战

6.1 2026 年已经发生的突破

NVIDIA GR00T：2025-2026 年，NVIDIA 全面押注物理 AI。GR00T 项目整合了 Omniverse 仿真平台、Cosmos 世界模型和 Isaac Lab 训练框架，形成了从数据生成到模型训练的完整工具链。GR00T N1.5 已在多个工业场景中验证了 VLA 方案的可行性。

Figure AI + OpenAI：Figure 01 机器人展示了大模型与机器人结合的潜力，结合 VLA 架构后，其动作流畅度和任务理解能力显著提升。

ABot-M0：国内团队的 VLA 新作，在 LIBERO、RoboCasa 等基准上实现了 98.6% 的平均成功率，验证了"系统化工程"路线的可行性。

6.2 依然存在的核心挑战

挑战一：实时推理延迟

VLA 模型的推理延迟是硬约束。以 π0 为例，在 3B 参数规模下，单次推理可能需要数十毫秒。对于需要 100Hz 以上控制频率的机器人，这个延迟可能是致命的。

解决方案包括模型量化（INT8/INT4）、知识蒸馏（distillation）、以及专用机器人芯片（NVIDIA Jetson Thor、Waymo SoC）。

挑战二：安全与容错

机器人执行动作时出错，可能造成物理损害。与语言模型的"幻觉"不同，动作幻觉（输出危险动作指令）不能被事后撤回。需要在 VLA 之上构建安全校验层：

输出约束：限制动作输出在安全范围内
人体检测：实时检测人与机器人的距离，触发安全停机
置信度阈值：低置信度时要求人工确认

挑战三：长程任务规划

VLA 目前擅长的是"技能执行"——完成一个具体的短程动作（抓取、放置、移动）。但对于复杂的长程任务（“帮我收拾厨房”），需要 VLA 与高层任务规划系统配合。如何让 VLA 自然地嵌入任务规划体系，仍是开放问题。

挑战四：具身差异

不同机器人有不同的"身体"——机械臂的关节数量、末端执行器的类型、重心位置。这些差异使得"一个模型控制所有机器人"的梦想实现起来比想象中更困难。

七、学习路径：从哪里开始

如果你对 VLA 技术感兴趣，以下是推荐的学习路径：

入门阶段：

了解机器人学基础：运动学、动力学、传感器融合
学习强化学习基础：MDP、Policy Gradient、PPO
阅读 OpenVLA 论文，了解离散动作 VLA 的基本范式

进阶阶段：

深入理解扩散模型/流匹配在连续控制中的应用
阅读 π0 论文，理解两阶段训练配方
学习 Isaac Sim / Mujoco 等物理仿真工具

工程实践：

在 OpenVLA 或 π0 基础上做 fine-tuning 实验
使用 OXE 数据集训练跨本体模型
探索端到端的 sim-to-real 部署

结语

VLA 正在将机器人 AI 从"专用技能"时代，带入"通用动作理解"时代。

如果 LLM 是 AI 的"大脑"，VLA 就是 AI 的"小脑 + 四肢"——它不仅理解你想做什么，还能把这种理解转化为精准的物理动作。

从 OpenVLA 的开创性探索，到 π0 的两阶段训练配方，再到 GR00T 的全栈整合，VLA 在 2025-2026 年间的进化速度令人惊叹。但真正的"机器人 GPT 时刻"尚未到来——数据、算力、安全和实时性四大挑战仍需逐一攻克。

当一个 VLA 能用自然语言描述自己的动作意图时，机器人基础模型的时代才算真正开启。

本文为 ai-tech-wiki 系列文章，撰写于 2026 年 3 月。

一、为什么 VLA 如此关键#

1.1 语言模型给了机器人"大脑"，但没有给"身体"#

1.2 VLA 的核心挑战：两个本质不同的世界#

二、VLA 架构全景：三条技术路线#

2.1 路线一：离散动作 + 自回归（OpenVLA）#

2.2 路线二：扩散模型 + 流匹配（π0）#

2.3 路线三：自校正框架（Self-Correcting）#

三、跨本体学习：让一个模型控制所有机器人#

3.1 数据困境与 Open X-Embodiment 数据集#

3.2 跨本体的本质：学会物理规律，而非学会某个机器人的动作#

四、主流 VLA 模型横向对比#

五、合成数据：解决机器人数据荒的钥匙#

5.1 仿真到现实（Sim-to-Real）#

5.2 世界模型生成数据#

5.3 Genesis：物理准确的合成数据平台#

六、2026 年的关键突破与依然存在的挑战#

6.1 2026 年已经发生的突破#

6.2 依然存在的核心挑战#

七、学习路径：从哪里开始#

结语#