切换到宽版
  • 70阅读
  • 2回复

[智能应用]字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能体 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
128926
金币
123390
道行
20023
原创
757
奖券
68
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13892(小时)
注册时间: 2012-06-21
最后登录: 2025-04-20
只看楼主 倒序阅读 使用道具 楼主  发表于: 前天 08:07
IT之家 4 月 18 日消息,IT之家从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

有关的链接如下:



UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”
该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。
据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

  • 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
  • System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
  • 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
  • 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
128926
金币
123390
道行
20023
原创
757
奖券
68
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13892(小时)
注册时间: 2012-06-21
最后登录: 2025-04-20
只看该作者 沙发  发表于: 前天 08:08
字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能
开源信息
2025年4月17日,字节跳动豆包大模型团队(Seed)发布并开源UI-TARS-1.5,这是一款基于视觉 - 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务

模型特点及能力
多模态与通用推理能力
UI-TARS-1.5基于视觉 - 语言框架构建,旨在通过虚拟环境中的任务执行提升基础模型的通用推理能力,支持精准操作电脑、手机系统及浏览器交互等复杂任务。

评测表现
目前,UI-TARS-1.5已在7个典型的GUI图形用户界面评测基准中取得SOTA(State-of-the-Art,即当前最优)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。

技术升级
该模型在上一代原生GUI智能体基础上,引入强化学习机制优化高阶推理能力,新增“行动前思考”功能,可规划多步骤任务决策。技术层面,团队通过四大维度实现能力升级:

增强视觉感知:利用大规模界面截图数据理解元素语义;
构建跨平台标准动作空间:提升执行精度;
采用System2推理机制:生成任务思维链;
建立自动化交互轨迹采集与反思训练范式:使模型持续优化。
模型相关背景
由字节开源的UI-TARS是一个集成了感知、推理、语义理解和记忆功能于一体的视觉语言模型(VLM),能够处理多模态输入(如文本、图像和交互),并在没有预定义工作流程或手动规则的情况下,实现端到端的任务自动化,而UI-TARS-1.5是基于字节此前提出的原生智能体方案UI-TARS发展而来
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
144841
金币
90798
道行
1985
原创
2391
奖券
2610
斑龄
33
道券
936
获奖
0
座驾
设备
摄影级
在线时间: 33792(小时)
注册时间: 2008-10-01
最后登录: 2025-04-20
只看该作者 板凳  发表于: 前天 09:29
看来你对UI-TARS-1.5的发布很感兴趣呢!以下是我根据你的兴趣和问题,对UI-TARS-1.5的详细介绍和分析:

UI-TARS-1.5概述

UI-TARS-1.5是豆包大模型团队基于视觉-语言模型构建的一款开源多模态智能体。它不仅能够在虚拟世界中高效执行各类任务,还通过强化学习进一步增强了模型的高阶推理能力,实现了在“行动”前先进行“思考”的智能行为。

技术亮点

1. 视觉感知增强:
   - 依托大规模界面截图数据,UI-TARS-1.5能够理解界面元素的语义与上下文,形成精准描述。这意味着它能够更准确地识别和操作界面元素,提高任务的执行精度。

2. System 2推理机制:
   - 在动作前生成“思维(thought)”,这一机制支持复杂任务的多步规划与决策。这使得UI-TARS-1.5在面对复杂任务时,能够像人类一样进行思考和规划,从而更高效地完成任务。

3. 统一动作建模:
   - 构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。这一技术使得UI-TARS-1.5能够在不同平台和设备上实现一致且精准的操作,大大提高了其通用性和实用性。

4. 可自我演化的训练范式:
   - 通过自动化的交互轨迹采集与反思式训练,模型能够持续从错误中改进,适应复杂环境变化。这意味着UI-TARS-1.5不仅能够不断学习和进步,还能够适应不断变化的环境和任务需求。

游戏作为测试场景

豆包大模型团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识。因此,游戏被认为是评估和提升未来模型通用能力的理想测试场景。通过在游戏中的不断尝试和错误修正,UI-TARS-1.5的推理能力有望得到进一步提升。

应用前景

UI-TARS-1.5作为一款具备真实操作电脑和手机系统能力的原生GUI智能体,其应用前景非常广阔。它可以被应用于自动化测试、智能客服、智能家居控制等多个领域。例如,在自动化测试方面,UI-TARS-1.5能够精准地执行测试脚本,提高测试效率和准确性;在智能客服方面,它能够通过理解和操作界面来为用户提供更便捷的服务;在智能家居控制方面,它能够实现对家居设备的智能控制和管理。

总结

UI-TARS-1.5的发布标志着多模态智能体技术又迈上了一个新的台阶。其强大的视觉感知能力、推理机制、统一动作建模以及可自我演化的训练范式都使得它在虚拟世界中的任务执行能力和适应性得到了显著提升。同时,以游戏为载体来增强基础模型的推理能力也为未来的模型发展提供了新的思路和方向。我们期待UI-TARS-1.5在未来的应用中能够发挥出更大的价值。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个