2026 年,机器人领域最热门的技术话题不再是"能不能造出人形机器人",而是"如何让机器人真正理解人想让它们做什么"。
这个问题的答案,正在从 VLA(Vision-Language-Action)模型中浮现。
VLA 是 2025-2026 年机器人 AI 研究的核心方向。它将视觉、语言和动作统一在一个模型架构中,让机器人能够像人类一样——“看着场景、听着指令、执行动作”。本文将深入解析 VLA 的工作原理、主流架构对比,以及它为何被认为是机器人基础模型的终极形态。
一、为什么 VLA 如此关键
1.1 语言模型给了机器人"大脑",但没有给"身体"
过去两年,大语言模型(LLM)给 AI 带来了理解语言的能力。但这对于机器人来说远远不够——机器人需要的不只是"读懂指令",而是"把指令变成手臂的移动"。
举一个简单的例子:人类说"把桌上的咖啡杯拿起来放到柜子里"。这个指令对 GPT-4 来说毫无难度。但对机器人来说,这意味着:
- 视觉:识别咖啡杯的位置、大小、形状
- 空间推理:判断如何绕过桌上的其他物品
- 精细控制:用合适的力度抓取,移动到目标位置
- 实时调整:杯子可能滑动,手腕需要微调
这就是 VLA 要解决的问题——在同一个模型里,同时完成感知、理解和动作输出。
1.2 VLA 的核心挑战:两个本质不同的世界
VLMs(视觉语言模型)的训练基于离散 token 预测(next token prediction),语言和图像都可以被离散化为 token 流。但动作(action)本质上是一个连续的物理量——机器人关节的角度、末端执行器的位置、力矩大小——这些都需要毫秒级精度的连续控制。
直接把 VLM 用于机器人动作输出会遇到根本性困难:
- 离散 vs 连续:语言模型天然适合离散 token,VLA 则需要在离散语义理解和连续动作控制之间找到平衡
- 时序要求:语言模型允许"思考一会儿再回答",机器人动作要求实时响应
- 安全约束:动作输出错误可能造成物理损害,需要额外的安全层
VLA 的研究,就是在解决这个"离散语义"与"连续动作"之间的鸿沟。
二、VLA 架构全景:三条技术路线
截至 2026 年初,主流 VLA 架构形成了三条清晰的技术路线:
2.1 路线一:离散动作 + 自回归(OpenVLA)
OpenVLA(Stanford + Berkeley,2024)是 VLA 领域的开创性工作。它将机器人动作空间离散化为 token,然后用标准的自回归方式预测动作序列。
架构特点:
视觉编码器(SigLIP/DINOv2)
↓
语言模型(Llama 2 / Vicuna)
↓
动作离散化层(Action Tokenizer)
↓
自回归动作预测核心思路:将动作看作一种特殊的"语言",通过大量机器人轨迹数据学会"机器人的语法"。
优点:
- 架构简洁,复用了成熟 LLM 基础设施
- 泛化能力强,能从互联网规模视觉语言数据中继承语义理解
缺点:
- 离散化会损失动作精度,高频控制场景表现不佳
- 自回归生成速度慢,难以满足实时控制要求
2.2 路线二:扩散模型 + 流匹配(π0)
π0(Physical Intelligence,2024年底)是目前性能最强的 VLA 方案之一。它的核心创新是用扩散/流匹配(Flow Matching)替代离散动作预测。
架构特点:
视觉编码器(PaliGemma) ──┐
├──→ 融合模块 → 动作专家(Action Expert)
语言模型(PaliGemma) ──┘ ↓
流匹配(Flow Matching)
↓
连续动作输出核心思路:将动作预测建模为"从噪声到目标动作的渐变过程",而非离散的 token 序列。
π0 的预训练使用约 10,000 小时的跨机器人数据(7种不同机器人配置、68个任务),结合 Open X-Embodiment(OXE)开源数据集。这种大规模多机器人数据预训练让 π0 具备了出色的跨本体(cross-embodiment)泛化能力——学会一个技能后,可以迁移到不同形态的机器人上。
π0 的两阶段训练配方:
- 预训练阶段(Pre-training):在海量多样化机器人数据上训练,建立基础动作能力
- 后训练阶段(Post-training):在高质量、特定任务的精选数据上微调,实现精细化控制
这个两阶段配方与 LLM 的"预训练 + SFT"高度一致,暗示机器人基础模型正在复制语言模型的成功路径。
π0.5 的进化:
Physical Intelligence 在 π0 基础上推出了 π0.5,核心改进是引入层级推理架构:
- 第一阶段:预测高级文本子目标(“把衣服拿起来”)
- 第二阶段:基于子目标,预测低层级连续动作
π0.5 还引入了 FAST tokenizer(用于离散化状态表示)和层级动作解码,显著提升了复杂长程任务的表现。
2.3 路线三:自校正框架(Self-Correcting)
第三条路线试图解决 VLA 在执行过程中的错误累积问题。机器人执行一个长程任务时,早期的微小误差会逐步放大,导致任务失败。
典型方案是在 VLA 架构中引入一个校正环路(correction loop):
环境观察 → VLA 推理 → 动作执行 → 结果校验 → 重新推理
↑
(如果失败则回退重试)这种架构借鉴了语言模型中"思维链"(Chain-of-Thought)的思路——让机器人在动作执行过程中加入"思考",而不是机械地执行预设序列。
三、跨本体学习:让一个模型控制所有机器人
VLA 最重要的特性之一是跨本体(cross-embodiment)泛化能力。
3.1 数据困境与 Open X-Embodiment 数据集
传统机器人训练面临严重的"数据孤岛"问题:每种机器人都有自己的数据集,数据量小、泛化差。MIT、UC Berkeley、Google DeepMind 等机构联合发布的 Open X-Embodiment(OXE) 数据集是解决这个问题的关键一步。
OXE 汇集了来自 20+ 个机构的机器人数据,覆盖 100+ 种机器人本体,是目前最大的开源机器人数据集。但数据量的增加本身并不够——VLA 架构需要能有效利用这些异构数据。
关键在于动作空间的标准化:不同机器人的关节数量不同、动作范围不同,需要一个统一的"机器人语言"来桥接这种异构性。
3.2 跨本体的本质:学会物理规律,而非学会某个机器人的动作
跨本体学习的深层逻辑是:机器人动作背后存在通用的物理规律——拿起物体需要对抗重力、抓取需要触觉反馈、放置需要空间位置判断。
优秀的 VLA 模型学到的是这些物理先验,而非特定机器人的关节角度。正是这种对物理规律的理解,让 π0 能在没见过的机器人上也能表现良好。
四、主流 VLA 模型横向对比
| 维度 | OpenVLA | π0 / π0.5 | GR00T N1.5 |
|---|---|---|---|
| 参数量 | 7B | 3B(PaliGemma-base) | 3B |
| 视觉骨干 | SigLIP + DINOv2 | PaliGemma 3B | Eagle 2.5 + Qwen2.5 |
| 动作生成方式 | 离散自回归 | 流匹配(Flow Matching) | 扩散/自回归混合 |
| 预训练数据 | OXE + 专有 | 10K小时 + OXE | NVIDIA Omniverse 合成 |
| 跨本体泛化 | 良好 | 优秀 | 良好 |
| 推理速度 | 慢(自回归) | 中等(流匹配并行) | 快(硬件优化) |
| 开源 | 是(Apache 2.0) | 部分开源 | 部分开源 |
| 训练成本 | 高(需要大量A100) | 高 | 高(依赖 Omniverse) |
| 擅长场景 | 泛化型桌面任务 | 复杂长程操作 | 工业/物流场景 |
五、合成数据:解决机器人数据荒的钥匙
VLA 训练面临的最大瓶颈之一是真实机器人数据极度稀缺。10,000 小时的机器人数据听着很多,但对比 GPT-4 的训练语料规模——这只是沧海一粟。
合成数据(Synthetic Data) 正在成为破局关键:
5.1 仿真到现实(Sim-to-Real)
用高保真物理仿真器(NVIDIA Isaac Sim、Mujoco)生成海量机器人轨迹数据,然后迁移到真实机器人上。
关键难点是 Sim-to-Real Gap——仿真环境的物理参数(摩擦力、弹性、惯性等)与真实世界存在差异,直接迁移往往失败。主流解法包括:
- 域随机化(Domain Randomization):在仿真中随机化物理参数,让模型学会适应各种变化
- 在线自适应:在真实机器人上收集少量数据,实时微调
5.2 世界模型生成数据
更前沿的方向是用世界模型直接生成机器人训练数据。例如给定"抓起红色方块"这个任务,世界模型可以生成数千种不同场景下的执行轨迹,而不需要真实的机器人。
这种"想象式训练"解决了真实数据采集成本高、场景覆盖不足的问题。
5.3 Genesis:物理准确的合成数据平台
Genesis(Physical Intelligence 孵化的新项目)是这个方向的代表。它构建了一个物理准确的仿真平台,能生成符合真实物理规律的训练数据,绕过了传统仿真器的参数标定难题。
六、2026 年的关键突破与依然存在的挑战
6.1 2026 年已经发生的突破
NVIDIA GR00T:2025-2026 年,NVIDIA 全面押注物理 AI。GR00T 项目整合了 Omniverse 仿真平台、Cosmos 世界模型和 Isaac Lab 训练框架,形成了从数据生成到模型训练的完整工具链。GR00T N1.5 已在多个工业场景中验证了 VLA 方案的可行性。
Figure AI + OpenAI:Figure 01 机器人展示了大模型与机器人结合的潜力,结合 VLA 架构后,其动作流畅度和任务理解能力显著提升。
ABot-M0:国内团队的 VLA 新作,在 LIBERO、RoboCasa 等基准上实现了 98.6% 的平均成功率,验证了"系统化工程"路线的可行性。
6.2 依然存在的核心挑战
挑战一:实时推理延迟
VLA 模型的推理延迟是硬约束。以 π0 为例,在 3B 参数规模下,单次推理可能需要数十毫秒。对于需要 100Hz 以上控制频率的机器人,这个延迟可能是致命的。
解决方案包括模型量化(INT8/INT4)、知识蒸馏(distillation)、以及专用机器人芯片(NVIDIA Jetson Thor、Waymo SoC)。
挑战二:安全与容错
机器人执行动作时出错,可能造成物理损害。与语言模型的"幻觉"不同,动作幻觉(输出危险动作指令)不能被事后撤回。需要在 VLA 之上构建安全校验层:
- 输出约束:限制动作输出在安全范围内
- 人体检测:实时检测人与机器人的距离,触发安全停机
- 置信度阈值:低置信度时要求人工确认
挑战三:长程任务规划
VLA 目前擅长的是"技能执行"——完成一个具体的短程动作(抓取、放置、移动)。但对于复杂的长程任务(“帮我收拾厨房”),需要 VLA 与高层任务规划系统配合。如何让 VLA 自然地嵌入任务规划体系,仍是开放问题。
挑战四:具身差异
不同机器人有不同的"身体"——机械臂的关节数量、末端执行器的类型、重心位置。这些差异使得"一个模型控制所有机器人"的梦想实现起来比想象中更困难。
七、学习路径:从哪里开始
如果你对 VLA 技术感兴趣,以下是推荐的学习路径:
入门阶段:
- 了解机器人学基础:运动学、动力学、传感器融合
- 学习强化学习基础:MDP、Policy Gradient、PPO
- 阅读 OpenVLA 论文,了解离散动作 VLA 的基本范式
进阶阶段:
- 深入理解扩散模型/流匹配在连续控制中的应用
- 阅读 π0 论文,理解两阶段训练配方
- 学习 Isaac Sim / Mujoco 等物理仿真工具
工程实践:
- 在 OpenVLA 或 π0 基础上做 fine-tuning 实验
- 使用 OXE 数据集训练跨本体模型
- 探索端到端的 sim-to-real 部署
结语
VLA 正在将机器人 AI 从"专用技能"时代,带入"通用动作理解"时代。
如果 LLM 是 AI 的"大脑",VLA 就是 AI 的"小脑 + 四肢"——它不仅理解你想做什么,还能把这种理解转化为精准的物理动作。
从 OpenVLA 的开创性探索,到 π0 的两阶段训练配方,再到 GR00T 的全栈整合,VLA 在 2025-2026 年间的进化速度令人惊叹。但真正的"机器人 GPT 时刻"尚未到来——数据、算力、安全和实时性四大挑战仍需逐一攻克。
当一个 VLA 能用自然语言描述自己的动作意图时,机器人基础模型的时代才算真正开启。
本文为 ai-tech-wiki 系列文章,撰写于 2026 年 3 月。
