2026 年,机器人领域最热门的技术话题不再是"能不能造出人形机器人",而是"如何让机器人真正理解人想让它们做什么"。

这个问题的答案,正在从 VLA(Vision-Language-Action)模型中浮现。

VLA 是 2025-2026 年机器人 AI 研究的核心方向。它将视觉、语言和动作统一在一个模型架构中,让机器人能够像人类一样——“看着场景、听着指令、执行动作”。本文将深入解析 VLA 的工作原理、主流架构对比,以及它为何被认为是机器人基础模型的终极形态。


一、为什么 VLA 如此关键

1.1 语言模型给了机器人"大脑",但没有给"身体"

过去两年,大语言模型(LLM)给 AI 带来了理解语言的能力。但这对于机器人来说远远不够——机器人需要的不只是"读懂指令",而是"把指令变成手臂的移动"。

举一个简单的例子:人类说"把桌上的咖啡杯拿起来放到柜子里"。这个指令对 GPT-4 来说毫无难度。但对机器人来说,这意味着:

  • 视觉:识别咖啡杯的位置、大小、形状
  • 空间推理:判断如何绕过桌上的其他物品
  • 精细控制:用合适的力度抓取,移动到目标位置
  • 实时调整:杯子可能滑动,手腕需要微调

这就是 VLA 要解决的问题——在同一个模型里,同时完成感知、理解和动作输出

1.2 VLA 的核心挑战:两个本质不同的世界

VLMs(视觉语言模型)的训练基于离散 token 预测(next token prediction),语言和图像都可以被离散化为 token 流。但动作(action)本质上是一个连续的物理量——机器人关节的角度、末端执行器的位置、力矩大小——这些都需要毫秒级精度的连续控制。

直接把 VLM 用于机器人动作输出会遇到根本性困难:

  • 离散 vs 连续:语言模型天然适合离散 token,VLA 则需要在离散语义理解和连续动作控制之间找到平衡
  • 时序要求:语言模型允许"思考一会儿再回答",机器人动作要求实时响应
  • 安全约束:动作输出错误可能造成物理损害,需要额外的安全层

VLA 的研究,就是在解决这个"离散语义"与"连续动作"之间的鸿沟。


二、VLA 架构全景:三条技术路线

截至 2026 年初,主流 VLA 架构形成了三条清晰的技术路线:

2.1 路线一:离散动作 + 自回归(OpenVLA)

OpenVLA(Stanford + Berkeley,2024)是 VLA 领域的开创性工作。它将机器人动作空间离散化为 token,然后用标准的自回归方式预测动作序列。

架构特点:

视觉编码器(SigLIP/DINOv2)
        ↓
语言模型(Llama 2 / Vicuna)
        ↓
动作离散化层(Action Tokenizer)
        ↓
自回归动作预测

核心思路:将动作看作一种特殊的"语言",通过大量机器人轨迹数据学会"机器人的语法"。

优点

  • 架构简洁,复用了成熟 LLM 基础设施
  • 泛化能力强,能从互联网规模视觉语言数据中继承语义理解

缺点

  • 离散化会损失动作精度,高频控制场景表现不佳
  • 自回归生成速度慢,难以满足实时控制要求

2.2 路线二:扩散模型 + 流匹配(π0)

π0(Physical Intelligence,2024年底)是目前性能最强的 VLA 方案之一。它的核心创新是用扩散/流匹配(Flow Matching)替代离散动作预测

架构特点:

视觉编码器(PaliGemma) ──┐
                          ├──→ 融合模块 → 动作专家(Action Expert)
语言模型(PaliGemma)   ──┘         ↓
                                  流匹配(Flow Matching)
                                  ↓
                               连续动作输出

核心思路:将动作预测建模为"从噪声到目标动作的渐变过程",而非离散的 token 序列。

π0 的预训练使用约 10,000 小时的跨机器人数据(7种不同机器人配置、68个任务),结合 Open X-Embodiment(OXE)开源数据集。这种大规模多机器人数据预训练让 π0 具备了出色的跨本体(cross-embodiment)泛化能力——学会一个技能后,可以迁移到不同形态的机器人上。

π0 的两阶段训练配方:

  1. 预训练阶段(Pre-training):在海量多样化机器人数据上训练,建立基础动作能力
  2. 后训练阶段(Post-training):在高质量、特定任务的精选数据上微调,实现精细化控制

这个两阶段配方与 LLM 的"预训练 + SFT"高度一致,暗示机器人基础模型正在复制语言模型的成功路径。

π0.5 的进化:

Physical Intelligence 在 π0 基础上推出了 π0.5,核心改进是引入层级推理架构:

  • 第一阶段:预测高级文本子目标(“把衣服拿起来”)
  • 第二阶段:基于子目标,预测低层级连续动作

π0.5 还引入了 FAST tokenizer(用于离散化状态表示)和层级动作解码,显著提升了复杂长程任务的表现。

2.3 路线三:自校正框架(Self-Correcting)

第三条路线试图解决 VLA 在执行过程中的错误累积问题。机器人执行一个长程任务时,早期的微小误差会逐步放大,导致任务失败。

典型方案是在 VLA 架构中引入一个校正环路(correction loop)

环境观察 → VLA 推理 → 动作执行 → 结果校验 → 重新推理
                                       ↑
                              (如果失败则回退重试)

这种架构借鉴了语言模型中"思维链"(Chain-of-Thought)的思路——让机器人在动作执行过程中加入"思考",而不是机械地执行预设序列。


三、跨本体学习:让一个模型控制所有机器人

VLA 最重要的特性之一是跨本体(cross-embodiment)泛化能力

3.1 数据困境与 Open X-Embodiment 数据集

传统机器人训练面临严重的"数据孤岛"问题:每种机器人都有自己的数据集,数据量小、泛化差。MIT、UC Berkeley、Google DeepMind 等机构联合发布的 Open X-Embodiment(OXE) 数据集是解决这个问题的关键一步。

OXE 汇集了来自 20+ 个机构的机器人数据,覆盖 100+ 种机器人本体,是目前最大的开源机器人数据集。但数据量的增加本身并不够——VLA 架构需要能有效利用这些异构数据。

关键在于动作空间的标准化:不同机器人的关节数量不同、动作范围不同,需要一个统一的"机器人语言"来桥接这种异构性。

3.2 跨本体的本质:学会物理规律,而非学会某个机器人的动作

跨本体学习的深层逻辑是:机器人动作背后存在通用的物理规律——拿起物体需要对抗重力、抓取需要触觉反馈、放置需要空间位置判断。

优秀的 VLA 模型学到的是这些物理先验,而非特定机器人的关节角度。正是这种对物理规律的理解,让 π0 能在没见过的机器人上也能表现良好。


四、主流 VLA 模型横向对比

维度OpenVLAπ0 / π0.5GR00T N1.5
参数量7B3B(PaliGemma-base)3B
视觉骨干SigLIP + DINOv2PaliGemma 3BEagle 2.5 + Qwen2.5
动作生成方式离散自回归流匹配(Flow Matching)扩散/自回归混合
预训练数据OXE + 专有10K小时 + OXENVIDIA Omniverse 合成
跨本体泛化良好优秀良好
推理速度慢(自回归)中等(流匹配并行)快(硬件优化)
开源是(Apache 2.0)部分开源部分开源
训练成本高(需要大量A100)高(依赖 Omniverse)
擅长场景泛化型桌面任务复杂长程操作工业/物流场景

五、合成数据:解决机器人数据荒的钥匙

VLA 训练面临的最大瓶颈之一是真实机器人数据极度稀缺。10,000 小时的机器人数据听着很多,但对比 GPT-4 的训练语料规模——这只是沧海一粟。

合成数据(Synthetic Data) 正在成为破局关键:

5.1 仿真到现实(Sim-to-Real)

用高保真物理仿真器(NVIDIA Isaac Sim、Mujoco)生成海量机器人轨迹数据,然后迁移到真实机器人上。

关键难点是 Sim-to-Real Gap——仿真环境的物理参数(摩擦力、弹性、惯性等)与真实世界存在差异,直接迁移往往失败。主流解法包括:

  • 域随机化(Domain Randomization):在仿真中随机化物理参数,让模型学会适应各种变化
  • 在线自适应:在真实机器人上收集少量数据,实时微调

5.2 世界模型生成数据

更前沿的方向是用世界模型直接生成机器人训练数据。例如给定"抓起红色方块"这个任务,世界模型可以生成数千种不同场景下的执行轨迹,而不需要真实的机器人。

这种"想象式训练"解决了真实数据采集成本高、场景覆盖不足的问题。

5.3 Genesis:物理准确的合成数据平台

Genesis(Physical Intelligence 孵化的新项目)是这个方向的代表。它构建了一个物理准确的仿真平台,能生成符合真实物理规律的训练数据,绕过了传统仿真器的参数标定难题。


六、2026 年的关键突破与依然存在的挑战

6.1 2026 年已经发生的突破

NVIDIA GR00T:2025-2026 年,NVIDIA 全面押注物理 AI。GR00T 项目整合了 Omniverse 仿真平台、Cosmos 世界模型和 Isaac Lab 训练框架,形成了从数据生成到模型训练的完整工具链。GR00T N1.5 已在多个工业场景中验证了 VLA 方案的可行性。

Figure AI + OpenAI:Figure 01 机器人展示了大模型与机器人结合的潜力,结合 VLA 架构后,其动作流畅度和任务理解能力显著提升。

ABot-M0:国内团队的 VLA 新作,在 LIBERO、RoboCasa 等基准上实现了 98.6% 的平均成功率,验证了"系统化工程"路线的可行性。

6.2 依然存在的核心挑战

挑战一:实时推理延迟

VLA 模型的推理延迟是硬约束。以 π0 为例,在 3B 参数规模下,单次推理可能需要数十毫秒。对于需要 100Hz 以上控制频率的机器人,这个延迟可能是致命的。

解决方案包括模型量化(INT8/INT4)、知识蒸馏(distillation)、以及专用机器人芯片(NVIDIA Jetson Thor、Waymo SoC)。

挑战二:安全与容错

机器人执行动作时出错,可能造成物理损害。与语言模型的"幻觉"不同,动作幻觉(输出危险动作指令)不能被事后撤回。需要在 VLA 之上构建安全校验层:

  • 输出约束:限制动作输出在安全范围内
  • 人体检测:实时检测人与机器人的距离,触发安全停机
  • 置信度阈值:低置信度时要求人工确认

挑战三:长程任务规划

VLA 目前擅长的是"技能执行"——完成一个具体的短程动作(抓取、放置、移动)。但对于复杂的长程任务(“帮我收拾厨房”),需要 VLA 与高层任务规划系统配合。如何让 VLA 自然地嵌入任务规划体系,仍是开放问题。

挑战四:具身差异

不同机器人有不同的"身体"——机械臂的关节数量、末端执行器的类型、重心位置。这些差异使得"一个模型控制所有机器人"的梦想实现起来比想象中更困难。


七、学习路径:从哪里开始

如果你对 VLA 技术感兴趣,以下是推荐的学习路径:

入门阶段

  • 了解机器人学基础:运动学、动力学、传感器融合
  • 学习强化学习基础:MDP、Policy Gradient、PPO
  • 阅读 OpenVLA 论文,了解离散动作 VLA 的基本范式

进阶阶段

  • 深入理解扩散模型/流匹配在连续控制中的应用
  • 阅读 π0 论文,理解两阶段训练配方
  • 学习 Isaac Sim / Mujoco 等物理仿真工具

工程实践

  • 在 OpenVLA 或 π0 基础上做 fine-tuning 实验
  • 使用 OXE 数据集训练跨本体模型
  • 探索端到端的 sim-to-real 部署

结语

VLA 正在将机器人 AI 从"专用技能"时代,带入"通用动作理解"时代。

如果 LLM 是 AI 的"大脑",VLA 就是 AI 的"小脑 + 四肢"——它不仅理解你想做什么,还能把这种理解转化为精准的物理动作。

从 OpenVLA 的开创性探索,到 π0 的两阶段训练配方,再到 GR00T 的全栈整合,VLA 在 2025-2026 年间的进化速度令人惊叹。但真正的"机器人 GPT 时刻"尚未到来——数据、算力、安全和实时性四大挑战仍需逐一攻克。

当一个 VLA 能用自然语言描述自己的动作意图时,机器人基础模型的时代才算真正开启。


本文为 ai-tech-wiki 系列文章,撰写于 2026 年 3 月。