智元Genie Envisioner平台:机器人世界模型的技术突破与开源实践
2025年8月14日,智元机器人正式发布行业首个面向真实世界机器人操控的统一世界模型开源平台Genie Envisioner(GE),该平台通过整合视频生成、未来帧预测与策略学习,构建了从视觉理解到动作执行的端到端闭环架构,为具身智能技术开辟了全新路径1234567。
平台核心技术架构与创新
视觉中心的建模范式
GE平台突破传统VLA(Vision-Language-Action)方法依赖语言抽象的局限,采用视觉空间直接建模策略,完整保留机器人与环境交互的时空动态信息。这一范式带来两大核心优势:
高效跨平台泛化:基于3000小时真机数据预训练的GE-Base模型,仅需1小时(约250个演示)遥操作数据即可适配AgilexCobotMagic、DualFranka等全新机器人平台,显著优于π0、GR00T等现有模型26。
长时序任务执行:通过稀疏记忆(sparse memory)模块显式建模时序演化,GE-Act在折叠纸盒等超长步骤任务中成功率达76%,远超传统方法(π0为48%,UniVLA/GR00T为0%)6。
三大核心组件协同设计
GE平台由三个紧密集成的模块构成闭环系统:
GE-Base:多视角视频世界基础模型,采用自回归视频生成框架,支持三路相机输入(头部+双臂腕部),通过稀疏记忆机制增强长时序推理能力,基于AgiBot-World-Beta数据集(3000小时/100万条数据)训练而成6。
GE-Act:轻量级动作转换模块(160M参数),通过异步推理模式(视频DiT 5Hz/动作模型30Hz)实现200毫秒内54步动作规划,支持机载RTX 4090实时控制6。
GE-Sim:动作条件神经仿真器,通过层次化动作条件机制将控制指令转化为视觉预测,支持闭环策略评估与仿真验证6。
开源资源与技术成果
###