多模态具身智能大模型复现

多模态具身智能大模型复现

源代码

https://www.gitpp.com/openvla/project080812-openvla

实际效果展示(以 LIBERO-Spatial为例)


✅ 成功测试1
✅ 成功测试2
✅ 成功测试3
图片 图片 图片
拿起放在木质橱柜上的那个黑色碗,并将它放到盘子中
拿起放在小烤碗旁边的那个黑色碗,并将它放在盘子中
拿起小烤碗旁边的黑色碗,并把它放到盘子中
✅ 成功测试4
✅ 成功测试5
✅ 成功测试6
图片 图片 图片
拿起饼干盒旁边的黑色碗,并将它放到盘子中
拿起放在饼干盒上的黑色碗,并把它放到盘子中
拿起木质橱柜最上面抽屉里的黑色碗,并把它放到盘子中

以上的六个测试用例都是成功的测试用例,接下来再展示几个失败的测试用例

❌ 失败测试1
❌ 失败测试2
❌ 失败测试3
图片 图片 图片
拿起放在饼干盒上的黑色碗,并将它放到盘子中
拿起炉子上的黑色碗,并将它放到盘子中
拿起木质橱柜上的黑色碗,并将它放到盘子中
失败原因

:虽然成功的放到了盘子中,但是模型没有停止输出,导致仿真环境的 Step 达到最大次数,发生了截断
失败原因

:对炉子上的黑色碗的位置判断不够准确,当机械臂还没有移动到准确的位置时,就执行了抓取动作
失败原因

:虽然成功的放到了盘子中,但是模型没有停止输出,导致仿真环境的 Step 达到最大次数,发生了截断

💡说明

OpenVLA 实现机器人控制的关键思想是:

利用 VLM 模型,将机器人连续控制动作编码为语言模型中的离散 token ,从而使语言模型能端到端地学习和预测机器人动作。

具体来说:

  • 连续的机器人动作被离散化成 256 个区间,然后将这些动作映射为语言模型词汇表中最少使用的 256 个 token。

Llama2 在词汇表末尾预留了约 100个特殊token,因此实际上并没有足够的 “多余” token可以使用。

实际上,OpenVLA “借用”了原本具有实际语义的156个常规 token 。

  • 模型接收图像和语言指令,输出的是 7 维的机器人控制动作,包括空间位移 (x, y, z)、姿态变化 (Δθ) 以及夹爪动作 (GripΔ)。
  • 这些动作原本为连续值,被离散化为256个 token,并使用 Llama2 预测。预测完成后,再利用动作反向tokenizer(De-Tokenizer)将离散化的 token 恢复为连续动作,用于实际的机器人控制执行 。

⚠️ 注意

1.视觉信息

在 LIBERO 数据集中,仿真环境中的相机安装方式与训练环境不同——仿真环境的相机是倒置安装的。

所以在图像输入进模型的时候,你需要倒转 image 的输入,请参考:eval.py


LIBERO,Lifelong Robot Learning Benchmark,是一个专为终身机器人学习研究设计的基准数据集,旨在促进机器人在长期学习过程中知识转移的研究。

数据集内容:

  • 图像数据:包括来自工作区和手腕相机的RGB图像,提供机器人视觉感知所需的信息。

  • 本体感觉数据:记录机器人的关节状态、末端执行器的位置和方向等,帮助机器人了解自身状态。

  • 语言任务规范:为每个任务提供语言描述,明确任务目标和要求,辅助机器人理解需要完成的具体操作。

任务套件:

  • LIBERO-Spatial
    :包含10个任务,侧重于物体空间位置的变化,研究机器人对空间关系的理解和适应能力。
  • LIBERO-Object
    :包含10个任务,主要关注操作对象的变化,例如不同形状、大小或类型的物体,以考察机器人对不同物体的操作和认知能力。
  • LIBERO-Goal
    :包含10个任务,着重于任务目标的改变,检验机器人在不同目标下的规划和执行能力。
  • LIBERO-100
    :由100个任务组成,其中LIBERO-90和LIBERO-10可分别用于预训练和评估长期学习性能,涵盖更广泛的任务类型和变化,全面评估机器人的终身学习能力。


多模态基本概念

多模态(Multi-Modal)指能够同时处理多种类型数据(如文本、图像、音频、视频等)的机器学习模型或系统。其核心在于打破单一模态数据的限制,通过融合跨模态信息(如视觉、语言、听觉),使AI系统更接近人类的感知和交互方式。例如:

  • 传统语音对话系统
    需先将语音转为文本(STT),再用大语言模型(LLM)处理,最后通过文本转语音(TTS)输出结果,过程中可能丢失语调、情感等关键信息。
  • 多模态模型
    可直接以语音为输入,同步生成语音输出,无需中间转换步骤,从而减少信息损耗,提升交互自然度。

多模态技术是AI向通用化、人性化发展的关键,尤其在机器人领域,其能整合视觉、语言、触觉等多维度数据,实现更复杂的任务理解和执行。

OpenVLA开源项目在机器人领域的意义

OpenVLA(Open Visual-Language-Action Model)是一个开源的多模态具身智能大模型,专注于将视觉、语言与机器人动作深度融合,推动机器人从“程序执行体”向“智能交互体”进化。其在机器人领域的意义可从以下维度展开:

1. 技术突破:端到端动作预测与控制

  • 核心思想
    :OpenVLA将机器人连续控制动作编码为语言模型中的离散token,使语言模型能够端到端地学习和预测动作。例如:
    • 动作离散化
      :将机械臂的7维动作(空间位移x/y/z、姿态变化Δθ、夹爪动作GripΔ)划分为256个区间,每个区间映射为一个token,形成动作词汇表。
    • 模型输出
      :输入图像和语言指令(如“拿起木质橱柜上的黑色碗”),模型直接输出动作token序列,再通过反向tokenizer还原为连续动作,驱动机器人执行。
  • 优势
    • 简化流程
      :传统机器人控制需分层设计(感知→规划→执行),OpenVLA通过单一模型实现全流程闭环,提升响应速度。
    • 泛化能力
      :在LIBERO-Spatial数据集的测试中,模型能理解“饼干盒旁边”“木质橱柜最上层抽屉”等空间关系,并生成准确动作,展现对复杂场景的适应能力。

2. 应用场景:从仿真到真实世界的迁移

  • 仿真环境验证
    :在LIBERO数据集的仿真环境中,OpenVLA成功完成多项任务(如“将黑色碗放入盘子”),验证了模型在标准化场景中的有效性。
  • 真实世界挑战
    • 动作截断
      :模型持续输出动作导致仿真步数超限(如成功放置碗后未停止)。
    • 定位误差
      :对“炉子上的黑色碗”位置判断偏差,因机械臂未到达目标位置即执行抓取。
    • 成功案例
      :模型能处理真实环境中的光照变化、物体遮挡等问题,例如在木质橱柜前准确识别黑色碗的位置。
    • 失败案例分析
    • 改进方向
      :通过增加真实世界数据训练、优化动作停止条件、提升视觉定位精度,可逐步解决上述问题。

3. 开源生态:降低机器人研发门槛

  • 完全开源
    :OpenVLA提供模型权重、训练代码和微调工具,支持在消费级GPU上高效微调(如通过LoRA方法),使中小企业和研究机构能低成本适配新场景。
  • 社区支持
    :项目在GitHub、HuggingFace等平台开源,吸引全球开发者贡献代码、数据集和优化方案,加速技术迭代。
  • 商业化潜力
    :开源模式降低机器人开发成本,推动具身智能技术在工业制造、物流、家庭服务等领域落地。例如:
    • 工业分拣
      :模型可识别不同形状的零件并分类放置。
    • 家庭服务
      :机器人能理解用户指令(如“把客厅的遥控器拿到卧室”),并自主完成任务。

4. 数据驱动:构建机器人学习的“互联网规模”数据集

  • 数据挑战
    :传统机器人数据集规模有限(如10万-100万示例),难以覆盖复杂场景。OpenVLA通过融合互联网规模的视觉语言数据(如CLIP、SigLIP)与机器人操作数据(如LIBERO),提升模型泛化能力。
  • 终身学习
    :LIBERO数据集支持机器人长期学习研究,例如通过LIBERO-100任务套件预训练模型,再在LIBERO-90上微调,实现知识迁移和性能提升。

5. 伦理与安全:开源框架下的合规性

  • 数据隐私
    :项目强调在真实场景中部署时需遵守数据保护法规(如GDPR),避免泄露用户信息。
  • 动作安全
    :模型输出需通过安全层校验,防止机械臂执行危险动作(如撞击人类或自身)。
  • 算法透明性
    :开源代码便于审计模型决策逻辑,降低“黑箱”风险,符合AI伦理要求。

总结

OpenVLA通过多模态技术与具身智能的结合,为机器人领域提供了以下价值:

  • 技术层面
    :实现视觉、语言与动作的端到端融合,提升机器人自主决策能力。
  • 应用层面
    :降低开发门槛,加速技术在工业、服务等场景的落地。
  • 生态层面
    :构建开源社区,推动数据共享和算法优化,形成“预训练+微调”的可持续发展模式。

未来,随着模型对真实世界数据的进一步适配,OpenVLA有望成为机器人领域的“通用操作系统”,重新定义人机协作方式。


图片


多模态具身智能大模型复现

源代码

https://www.gitpp.com/openvla/project080812-openvla


本篇文章来源于微信公众号: GitHubFun网站

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容