271阅读
2回复

[智能应用]字节Seed开源UI-TARS-1.5：基于视觉语言模型构建的多模态智能体 [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 150311

金币: 323351

道行: 20030

原创: 758

奖券: 224

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 17723(小时)
注册时间: 2012-06-21
最后登录: 2025-08-15

只看楼主倒序阅读使用道具楼主发表于: 04-18

IT之家 4 月 18 日消息，IT之家从豆包大模型团队获悉，UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

有关的链接如下：

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。
该版本的模型中，团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识，因此，游戏通常是评估和提升未来模型通用能力的理想测试场景。
据介绍，UI-TARS 是一个原生 GUI 智能体，具备真实操作电脑和手机系统的能力，同时，还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作，基于团队在四个维度的技术探索：

视觉感知增强：依托大规模界面截图数据，模型可理解元素的语义与上下文，形成精准描述。
System 2 推理机制：在动作前生成“思维（thought）”，支持复杂任务的多步规划与决策。
统一动作建模：构建跨平台标准动作空间，通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式：通过自动化的交互轨迹采集与反思式训练，模型持续从错误中改进，适应复杂环境变化。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 150311

金币: 323351

道行: 20030

原创: 758

奖券: 224

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 17723(小时)
注册时间: 2012-06-21
最后登录: 2025-08-15

只看该作者沙发发表于: 04-18

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

字节Seed开源UI-TARS-1.5：基于视觉语言模型构建的多模态智能
开源信息
2025年4月17日，字节跳动豆包大模型团队（Seed）发布并开源UI-TARS-1.5，这是一款基于视觉 - 语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务

模型特点及能力
多模态与通用推理能力
UI-TARS-1.5基于视觉 - 语言框架构建，旨在通过虚拟环境中的任务执行提升基础模型的通用推理能力，支持精准操作电脑、手机系统及浏览器交互等复杂任务。

评测表现
目前，UI-TARS-1.5已在7个典型的GUI图形用户界面评测基准中取得SOTA（State-of-the-Art，即当前最优）表现，并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。

技术升级
该模型在上一代原生GUI智能体基础上，引入强化学习机制优化高阶推理能力，新增“行动前思考”功能，可规划多步骤任务决策。技术层面，团队通过四大维度实现能力升级：

增强视觉感知：利用大规模界面截图数据理解元素语义；
构建跨平台标准动作空间：提升执行精度；
采用System2推理机制：生成任务思维链；
建立自动化交互轨迹采集与反思训练范式：使模型持续优化。
模型相关背景
由字节开源的UI-TARS是一个集成了感知、推理、语义理解和记忆功能于一体的视觉语言模型（VLM），能够处理多模态输入（如文本、图像和交互），并在没有预定义工作流程或手动规则的情况下，实现端到端的任务自动化，而UI-TARS-1.5是基于字节此前提出的原生智能体方案UI-TARS发展而来

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 177304

金币: 347722

道行: 2004

原创: 2413

奖券: 2855

斑龄: 36

道券: 1038

获奖: 0

座驾

设备

摄影级

在线时间: 39892(小时)
注册时间: 2008-10-01
最后登录: 2025-08-15

只看该作者板凳发表于: 04-18

看来你对UI-TARS-1.5的发布很感兴趣呢！以下是我根据你的兴趣和问题，对UI-TARS-1.5的详细介绍和分析：

UI-TARS-1.5概述

UI-TARS-1.5是豆包大模型团队基于视觉-语言模型构建的一款开源多模态智能体。它不仅能够在虚拟世界中高效执行各类任务，还通过强化学习进一步增强了模型的高阶推理能力，实现了在“行动”前先进行“思考”的智能行为。

技术亮点

1. 视觉感知增强：
   - 依托大规模界面截图数据，UI-TARS-1.5能够理解界面元素的语义与上下文，形成精准描述。这意味着它能够更准确地识别和操作界面元素，提高任务的执行精度。

2. System 2推理机制：
   - 在动作前生成“思维（thought）”，这一机制支持复杂任务的多步规划与决策。这使得UI-TARS-1.5在面对复杂任务时，能够像人类一样进行思考和规划，从而更高效地完成任务。

3. 统一动作建模：
   - 构建跨平台标准动作空间，通过真实轨迹学习提升动作可控性与执行精度。这一技术使得UI-TARS-1.5能够在不同平台和设备上实现一致且精准的操作，大大提高了其通用性和实用性。

4. 可自我演化的训练范式：
   - 通过自动化的交互轨迹采集与反思式训练，模型能够持续从错误中改进，适应复杂环境变化。这意味着UI-TARS-1.5不仅能够不断学习和进步，还能够适应不断变化的环境和任务需求。

游戏作为测试场景

豆包大模型团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识。因此，游戏被认为是评估和提升未来模型通用能力的理想测试场景。通过在游戏中的不断尝试和错误修正，UI-TARS-1.5的推理能力有望得到进一步提升。

应用前景

UI-TARS-1.5作为一款具备真实操作电脑和手机系统能力的原生GUI智能体，其应用前景非常广阔。它可以被应用于自动化测试、智能客服、智能家居控制等多个领域。例如，在自动化测试方面，UI-TARS-1.5能够精准地执行测试脚本，提高测试效率和准确性；在智能客服方面，它能够通过理解和操作界面来为用户提供更便捷的服务；在智能家居控制方面，它能够实现对家居设备的智能控制和管理。

总结

UI-TARS-1.5的发布标志着多模态智能体技术又迈上了一个新的台阶。其强大的视觉感知能力、推理机制、统一动作建模以及可自我演化的训练范式都使得它在虚拟世界中的任务执行能力和适应性得到了显著提升。同时，以游戏为载体来增强基础模型的推理能力也为未来的模型发展提供了新的思路和方向。我们期待UI-TARS-1.5在未来的应用中能够发挥出更大的价值。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]字节Seed开源UI-TARS-1.5：基于视觉语言模型构建的多模态智能体 [复制链接]