多模态具身智能大模型复现-千知

多模态具身智能大模型复现

源代码

https://www.gitpp.com/openvla/project080812-openvla

实际效果展示(以 LIBERO-Spatial为例)

✅ 成功测试1	✅ 成功测试2	✅ 成功测试3

拿起放在木质橱柜上的那个黑色碗，并将它放到盘子中	拿起放在小烤碗旁边的那个黑色碗，并将它放在盘子中	拿起小烤碗旁边的黑色碗，并把它放到盘子中
✅ 成功测试4	✅ 成功测试5	✅ 成功测试6

拿起饼干盒旁边的黑色碗，并将它放到盘子中	拿起放在饼干盒上的黑色碗，并把它放到盘子中	拿起木质橱柜最上面抽屉里的黑色碗，并把它放到盘子中

以上的六个测试用例都是成功的测试用例，接下来再展示几个失败的测试用例

❌ 失败测试1

❌ 失败测试2

❌ 失败测试3

拿起放在饼干盒上的黑色碗，并将它放到盘子中

拿起炉子上的黑色碗，并将它放到盘子中

拿起木质橱柜上的黑色碗，并将它放到盘子中

失败原因

：虽然成功的放到了盘子中，但是模型没有停止输出，导致仿真环境的 Step 达到最大次数，发生了截断

失败原因

：对炉子上的黑色碗的位置判断不够准确，当机械臂还没有移动到准确的位置时，就执行了抓取动作

失败原因

：虽然成功的放到了盘子中，但是模型没有停止输出，导致仿真环境的 Step 达到最大次数，发生了截断

💡说明

OpenVLA 实现机器人控制的关键思想是：

利用 VLM 模型，将机器人连续控制动作编码为语言模型中的离散 token ，从而使语言模型能端到端地学习和预测机器人动作。

具体来说：

连续的机器人动作被离散化成 256 个区间，然后将这些动作映射为语言模型词汇表中最少使用的 256 个 token。

Llama2 在词汇表末尾预留了约 100个特殊token，因此实际上并没有足够的 “多余” token可以使用。

实际上，OpenVLA “借用”了原本具有实际语义的156个常规 token 。

模型接收图像和语言指令，输出的是 7 维的机器人控制动作，包括空间位移 (x, y, z)、姿态变化 (Δθ) 以及夹爪动作 (GripΔ)。
这些动作原本为连续值，被离散化为256个 token，并使用 Llama2 预测。预测完成后，再利用动作反向tokenizer（De-Tokenizer）将离散化的 token 恢复为连续动作，用于实际的机器人控制执行。

⚠️ 注意

1.视觉信息

在 LIBERO 数据集中，仿真环境中的相机安装方式与训练环境不同——仿真环境的相机是倒置安装的。

所以在图像输入进模型的时候，你需要倒转 image 的输入，请参考：eval.py

LIBERO，Lifelong Robot Learning Benchmark，是一个专为终身机器人学习研究设计的基准数据集，旨在促进机器人在长期学习过程中知识转移的研究。

数据集内容：

图像数据：包括来自工作区和手腕相机的RGB图像，提供机器人视觉感知所需的信息。
本体感觉数据：记录机器人的关节状态、末端执行器的位置和方向等，帮助机器人了解自身状态。
语言任务规范：为每个任务提供语言描述，明确任务目标和要求，辅助机器人理解需要完成的具体操作。

任务套件：

LIBERO-Spatial

：包含10个任务，侧重于物体空间位置的变化，研究机器人对空间关系的理解和适应能力。
LIBERO-Object

：包含10个任务，主要关注操作对象的变化，例如不同形状、大小或类型的物体，以考察机器人对不同物体的操作和认知能力。
LIBERO-Goal

：包含10个任务，着重于任务目标的改变，检验机器人在不同目标下的规划和执行能力。
LIBERO-100

：由100个任务组成，其中LIBERO-90和LIBERO-10可分别用于预训练和评估长期学习性能，涵盖更广泛的任务类型和变化，全面评估机器人的终身学习能力。

多模态基本概念

多模态（Multi-Modal）指能够同时处理多种类型数据（如文本、图像、音频、视频等）的机器学习模型或系统。其核心在于打破单一模态数据的限制，通过融合跨模态信息（如视觉、语言、听觉），使AI系统更接近人类的感知和交互方式。例如：

传统语音对话系统

需先将语音转为文本（STT），再用大语言模型（LLM）处理，最后通过文本转语音（TTS）输出结果，过程中可能丢失语调、情感等关键信息。
多模态模型

可直接以语音为输入，同步生成语音输出，无需中间转换步骤，从而减少信息损耗，提升交互自然度。

多模态技术是AI向通用化、人性化发展的关键，尤其在机器人领域，其能整合视觉、语言、触觉等多维度数据，实现更复杂的任务理解和执行。

OpenVLA开源项目在机器人领域的意义

OpenVLA（Open Visual-Language-Action Model）是一个开源的多模态具身智能大模型，专注于将视觉、语言与机器人动作深度融合，推动机器人从“程序执行体”向“智能交互体”进化。其在机器人领域的意义可从以下维度展开：

1. 技术突破：端到端动作预测与控制

核心思想

：OpenVLA将机器人连续控制动作编码为语言模型中的离散token，使语言模型能够端到端地学习和预测动作。例如：

动作离散化

：将机械臂的7维动作（空间位移x/y/z、姿态变化Δθ、夹爪动作GripΔ）划分为256个区间，每个区间映射为一个token，形成动作词汇表。
模型输出

：输入图像和语言指令（如“拿起木质橱柜上的黑色碗”），模型直接输出动作token序列，再通过反向tokenizer还原为连续动作，驱动机器人执行。

优势

：

简化流程

：传统机器人控制需分层设计（感知→规划→执行），OpenVLA通过单一模型实现全流程闭环，提升响应速度。
泛化能力

：在LIBERO-Spatial数据集的测试中，模型能理解“饼干盒旁边”“木质橱柜最上层抽屉”等空间关系，并生成准确动作，展现对复杂场景的适应能力。

2. 应用场景：从仿真到真实世界的迁移

仿真环境验证

：在LIBERO数据集的仿真环境中，OpenVLA成功完成多项任务（如“将黑色碗放入盘子”），验证了模型在标准化场景中的有效性。
真实世界挑战

：

动作截断

：模型持续输出动作导致仿真步数超限（如成功放置碗后未停止）。
定位误差

：对“炉子上的黑色碗”位置判断偏差，因机械臂未到达目标位置即执行抓取。

成功案例

：模型能处理真实环境中的光照变化、物体遮挡等问题，例如在木质橱柜前准确识别黑色碗的位置。
失败案例分析

：
改进方向

：通过增加真实世界数据训练、优化动作停止条件、提升视觉定位精度，可逐步解决上述问题。

3. 开源生态：降低机器人研发门槛

完全开源

：OpenVLA提供模型权重、训练代码和微调工具，支持在消费级GPU上高效微调（如通过LoRA方法），使中小企业和研究机构能低成本适配新场景。
社区支持

：项目在GitHub、HuggingFace等平台开源，吸引全球开发者贡献代码、数据集和优化方案，加速技术迭代。
商业化潜力

：开源模式降低机器人开发成本，推动具身智能技术在工业制造、物流、家庭服务等领域落地。例如：

工业分拣

：模型可识别不同形状的零件并分类放置。
家庭服务

：机器人能理解用户指令（如“把客厅的遥控器拿到卧室”），并自主完成任务。

4. 数据驱动：构建机器人学习的“互联网规模”数据集

数据挑战

：传统机器人数据集规模有限（如10万-100万示例），难以覆盖复杂场景。OpenVLA通过融合互联网规模的视觉语言数据（如CLIP、SigLIP）与机器人操作数据（如LIBERO），提升模型泛化能力。
终身学习

：LIBERO数据集支持机器人长期学习研究，例如通过LIBERO-100任务套件预训练模型，再在LIBERO-90上微调，实现知识迁移和性能提升。