切换到宽版
  • 11阅读
  • 2回复

[数码讨论]智元推出行业首个机器人世界模型开源平台 Genie Envisioner[2P] [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
177300
金币
347690
道行
2004
原创
2413
奖券
2855
斑龄
36
道券
1038
获奖
0
座驾
设备
摄影级
在线时间: 39891(小时)
注册时间: 2008-10-01
最后登录: 2025-08-15
只看楼主 倒序阅读 使用道具 楼主  发表于: 6小时前

IT之家 8 月 15 日消息,智元机器人昨天通过公众号宣布,推出行业首个面向真实世界机器人操控的统一世界模型平台 ---Genie Envisioner(GE)。
根据官方介绍,不同于传统“数据 — 训练 — 评估”割裂的流水线模式,GE 将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。基于 3000 小时真机数据,GE-Act 不仅在跨平台泛化和长时序任务执行上显著超越现有 SOTA,更为具身智能打开了从视觉理解到动作执行的全新技术路径。
IT之家附开源有关链接:Project page:https://genie-envisioner.github.io/Arxiv:https://arxiv.org/abs/2508.05635Github:https://github.com/AgibotTech/Genie-Envisioner
GE 平台通过构建统一的视频生成世界模型,将这些分散的环节集成到一个闭环系统中。基于约 3000 小时的真实机器人操控视频数据,GE 建立了从语言指令到视觉空间的直接映射,保留了机器人与环境交互的完整时空信息。

基于强大的视觉空间预训练,GE-Act 仅需极少量数据即可实现跨平台迁移。在 Agilex Cobot Magic 和 Dual Franka 等全新机器人平台上,GE-Act 仅使用 1 小时(约 250 个演示)的遥操作数据就实现了高质量的任务执行。

智元方面表示,团队将开源全部代码、预训练模型和评测工具。GE 通过视觉中心的世界建模,为机器人学习开辟了新的技术路径。GE 的发布,标志着机器人从被动执行向主动‘想象 — 验证 — 行动’的转变。未来,将扩展更多传感器模态,支持全身移动与人机协作,持续推动智能制造与服务机器人的落地应用。返回
[ 此帖被jjybzxw在2025-08-15 09:14重新编辑 ]
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
177300
金币
347690
道行
2004
原创
2413
奖券
2855
斑龄
36
道券
1038
获奖
0
座驾
设备
摄影级
在线时间: 39891(小时)
注册时间: 2008-10-01
最后登录: 2025-08-15
只看该作者 沙发  发表于: 6小时前
智元机器人推出Genie Envisioner平台

智元机器人近日宣布推出行业首个面向真实世界机器人操控的统一世界模型平台——Genie Envisioner(GE)。这一平台的推出标志着机器人技术在从视觉理解到动作执行的全新技术路径上取得了重要突破。

平台特点

1. 闭环架构:
   - GE平台将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构。这种架构使得机器人能够在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

2. 数据驱动:
   - 基于3000小时的真实机器人操控视频数据,GE平台建立了从语言指令到视觉空间的直接映射,保留了机器人与环境交互的完整时空信息。

3. 跨平台泛化:
   - GE-Act仅需极少量数据即可实现跨平台迁移。在Agilex Cobot Magic和Dual Franka等全新机器人平台上,GE-Act仅使用1小时(约250个演示)的遥操作数据就实现了高质量的任务执行。

开源贡献

智元团队表示,将开源全部代码、预训练模型和评测工具。这一举措将有助于推动机器人技术的进一步发展和应用。

技术路径

- 视觉中心的世界建模:
  - GE通过视觉中心的世界建模,为机器人学习开辟了新的技术路径。这种建模方式使得机器人能够更好地理解和适应环境。

- 主动“想象 — 验证 — 行动”:
  - GE的发布标志着机器人从被动执行向主动“想象 — 验证 — 行动”的转变。这种转变将使得机器人在执行任务时更加灵活和智能。

未来展望

- 扩展传感器模态:
  - 未来,GE平台将扩展更多传感器模态,支持全身移动与人机协作,持续推动智能制造与服务机器人的落地应用。

开源链接

- Project page:[https://genie-envisioner.github.io/](https://genie-envisioner.github.io/)
- Arxiv:[https://arxiv.org/abs/2508.05635](https://arxiv.org/abs/2508.05635)
- Github:[https://github.com/AgibotTech/Genie-Envisioner](https://github.com/AgibotTech/Genie-Envisioner)

这一平台的推出不仅为机器人技术的发展提供了新的思路,也为智能制造和服务机器人的应用开辟了新的可能性。希望GE平台能够在未来的发展中不断进步,为行业带来更多的创新和突破。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
150309
金币
323339
道行
20030
原创
758
奖券
224
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17718(小时)
注册时间: 2012-06-21
最后登录: 2025-08-15
只看该作者 板凳  发表于: 4小时前
智元Genie Envisioner平台:机器人世界模型的技术突破与开源实践
2025年8月14日,智元机器人正式发布行业首个面向真实世界机器人操控的统一世界模型开源平台Genie Envisioner(GE),该平台通过整合视频生成、未来帧预测与策略学习,构建了从视觉理解到动作执行的端到端闭环架构,为具身智能技术开辟了全新路径1234567。

平台核心技术架构与创新
视觉中心的建模范式
GE平台突破传统VLA(Vision-Language-Action)方法依赖语言抽象的局限,采用视觉空间直接建模策略,完整保留机器人与环境交互的时空动态信息。这一范式带来两大核心优势:

高效跨平台泛化:基于3000小时真机数据预训练的GE-Base模型,仅需1小时(约250个演示)遥操作数据即可适配AgilexCobotMagic、DualFranka等全新机器人平台,显著优于π0、GR00T等现有模型26。
长时序任务执行:通过稀疏记忆(sparse memory)模块显式建模时序演化,GE-Act在折叠纸盒等超长步骤任务中成功率达76%,远超传统方法(π0为48%,UniVLA/GR00T为0%)6。
三大核心组件协同设计
GE平台由三个紧密集成的模块构成闭环系统:

GE-Base:多视角视频世界基础模型,采用自回归视频生成框架,支持三路相机输入(头部+双臂腕部),通过稀疏记忆机制增强长时序推理能力,基于AgiBot-World-Beta数据集(3000小时/100万条数据)训练而成6。
GE-Act:轻量级动作转换模块(160M参数),通过异步推理模式(视频DiT 5Hz/动作模型30Hz)实现200毫秒内54步动作规划,支持机载RTX 4090实时控制6。
GE-Sim:动作条件神经仿真器,通过层次化动作条件机制将控制指令转化为视觉预测,支持闭环策略评估与仿真验证6。
开源资源与技术成果
###

如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个