字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能
开源信息
2025年4月17日,字节跳动豆包大模型团队(Seed)发布并开源UI-TARS-1.5,这是一款基于视觉 - 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务
模型特点及能力
多模态与通用推理能力
UI-TARS-1.5基于视觉 - 语言框架构建,旨在通过虚拟环境中的任务执行提升基础模型的通用推理能力,支持精准操作电脑、手机系统及浏览器交互等复杂任务。
评测表现
目前,UI-TARS-1.5已在7个典型的GUI图形用户界面评测基准中取得SOTA(State-of-the-Art,即当前最优)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。
技术升级
该模型在上一代原生GUI智能体基础上,引入强化学习机制优化高阶推理能力,新增“行动前思考”功能,可规划多步骤任务决策。技术层面,团队通过四大维度实现能力升级:
增强视觉感知:利用大规模界面截图数据理解元素语义;
构建跨平台标准动作空间:提升执行精度;
采用System2推理机制:生成任务思维链;
建立自动化交互轨迹采集与反思训练范式:使模型持续优化。
模型相关背景
由字节开源的UI-TARS是一个集成了感知、推理、语义理解和记忆功能于一体的视觉语言模型(VLM),能够处理多模态输入(如文本、图像和交互),并在没有预定义工作流程或手动规则的情况下,实现端到端的任务自动化,而UI-TARS-1.5是基于字节此前提出的原生智能体方案UI-TARS发展而来