高德近期开源了其自研的通用机器人具身操作基座模型ABot-M0,同时开放了模型参数、训练代码以及一个包含超过600万条真实操作轨迹的UniACT数据集。
官方宣称这是全球首个基于统一架构、支持多种机器人形态的具身操作基座模型。在开源社区对具身智能基座模型需求旺盛的背景下,这一动作值得审视。
ABot-M0的技术路线可以概括为数据统一、架构统一和算法开源。数据层面,它整合了来自单臂、双臂、轮式臂等多种机器人的操作数据,通过一套标准化管线将不同硬件平台的控制信号、关节空间坐标和观测模态对齐到统一的表示空间。
架构上采用了双流设计:一条流基于视觉语言模型处理语义理解,另一条流通过即插即用的3D模块提取几何特征。
动作生成部分使用了动作流形学习算法,直接预测连续动作序列,绕过了传统扩散模型迭代去噪的计算开销。
在Libero-Plus、RoboCasa等公开基准测试中,ABot-M0取得了当前最优结果。例如在Libero-Plus上任务成功率达到80.5%,较Pi0提升约30个百分点。这些数据来自标准化评估环境,反映了模型在已知任务上的复制能力。
但基准测试的高分并不等价于真实物理场景中的泛化性。这些测试中的操作任务通常是固定的目标物体、固定的光照和背景、有限的动作空间。而真实世界的操作涉及摩擦力变化、物体形变、遮挡恢复等物理交互中的不确定因素。
ABot-M0的训练数据全部来自遥操作采集,这意味着模型学习的本质是人类遥控器输出与控制目标之间的统计映射,而非物理因果关系。
当物体质量分布改变、关节磨损造成延迟、或者出现训练数据中未记录的接触模式时,模型能否自适应还没有公开证据。
与已有工作相比,谷歌的RT-2系列模型尝试了网络规模的视觉语言预训练加机器人微调,Physical Intelligence的π0在2025年初开源后展示了多任务家庭操作的可行性。
ABot-M0的优势在于数据集规模和开源完整度,它提供了从原始数据到模型部署的全套工具链,包括ROS2接口封装和动作重映射器。这对于高校实验室和中小企业降低入门门槛确实有价值。
但开源模型的使用效果高度依赖于用户能否复现高德的数据采集条件。不同团队使用的机器人硬件、相机标定、遥控设备各不相同,即使采用同一套模型权重,实际性能可能会有显著差异。
高德选择不做机器人硬件,只输出基座模型和工具链。这种定位回避了软硬件联合优化中大量工程难题,例如实时控制延迟补偿、传感器噪声建模、执行器饱和处理等。
一个在实验室标准配置上运行良好的模型,移植到第三方平台上之后性能衰减多少,目前没有公开的量化评估。
ABot-M0在数据工程和架构设计上推进了具身智能基座模型的可复现性。
但一个基座模型的真正价值,不在于它在一个受控基准上比前一个模型高几个百分点,而在于未经微调的零样本条件下,面对从未见过的物体、环境干扰和机械差异时还能稳定工作。
从当前公开信息看,这个边界还没有被突破。



