机器人学习也要提速提质!智元机器人发布首个通用具身基座大模型

机器人学习也要提速提质!智元机器人发布首个通用具身基座大模型

孤寂好友 2025-03-10 娱乐报 15 次浏览 0个评论

去年已实现量产近千台的人形机器人公司智元机器人再度对外宣布重磅消息。

3月10日,该公司正式发布首个通用具身基座大模型,即智元启元大模型(Genie Operator-1)。“GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。”

值得关注的是,智元机器人方面介绍,GO-1大模型还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

2024年底,智元机器人年推出了AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。然而,如何有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据?这仍然是关键。

智元介绍,数字金字塔的底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景;在这之上是大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式;更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等;金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。

“现有的VLA(Vision-Language-Action)架构,未有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。”基于这一现实,智元此次提出了Vision-Language-Latent-Action(ViLLA)架构。

据介绍,该架构由VLM(多模态大模型)+ MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)则借助百万真机数据获得精细的动作执行能力。

也就是说,与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟,能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。

智元机器人称,在推理时,VLM、Latent Planner和Action Expert三者协同工作:VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

“实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上一个新台阶。”智元机器人方面表示。

根据该公司给出的数据,通过Vision-Language-Latent-Action (ViLLA) 架构,其在五种不同复杂度的任务上测试 GO-1,相比已有的最优模型,GO-1平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外还单独验证了ViLLA 架构中Latent Planner的作用,其可以提升12%的成功率(66%->78%)。

智元机器人称,智元通用具身基座大模型GO-1的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进。

智元机器人于2023年2月成立于上海临港新片区,其临港工厂也已于2024年10月开始生产,这也是上海首座人形机器人量产工厂。据悉,智元机器人还计划在上海张江建设年产能在1万台左右的人形机器人的二期工厂。截至目前,该公司主要有三条主打产品线,分别为远征、Genie和灵犀。

转载请注明来自创新模拟,本文标题:《机器人学习也要提速提质!智元机器人发布首个通用具身基座大模型》

每一天,每一秒,你所做的决定都会改变你的人生!
Top
网站统计代码