94阅读
2回复

[智能应用]激烈竞争下OpenAI发布最新推理模型，新增图像思考、工具使用能力 [3P] [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 129358

金币: 127210

道行: 20023

原创: 757

奖券: 68

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 13960(小时)
注册时间: 2012-06-21
最后登录: 2025-04-22

只看楼主倒序阅读使用道具楼主发表于: 04-17

蓝鲸新闻4月17日讯（记者朱俊熹）当地时间4月16日，OpenAI发布最新的推理模型o3和o4-mini。OpenAI表示，这是其"迄今为止发布的最智能的模型"，在智能性和实用性方面设定了全新标准。
据OpenAI介绍，o3是其最强大的推理模型，在数学、编码、科学、视觉感知等领域的表现都超过了前代o1、o3-mini模型。"它非常适合处理需要多方面分析、答案可能不是立即显而易见的复杂查询。"o4-mini则是一款经过优化的小型模型，旨在提供快速、经济高效的推理。
在o3开发过程中，OpenAI称发现大规模强化学习呈现出与GPT系列预训练相同的趋势，即"计算量越大，性能越好"。OpenAI在训练计算量和推理过程中的思考方面都提升了一个数量级，看到了明显的性能提升。通过强化学习，OpenAI还训练两个新模型使用工具。
最新的推理模型o3和o4-mini能够组合使用ChatGPT中的所有工具，包括网页搜索、图像生成、使用Python分析数据等。在OpenAI提供的示例中，当用户询问电池技术的突破对电动汽车的影响时，o1模型在推理5秒后给出了文字、代码片段为主的回复，而o3模型经过40秒的推理时间，多次使用搜索功能，除文字外还能直接生成图像和图表。

图片来源：OpenAI
相较于前代推理模型，新模型在视觉推理方面也取得突破。o3和o4-mini不仅可以"看到"图像，还能够用图像来思考，将其整合到思维链中。例如，当用户上传一张倒着拍的手写笔记照片时，模型在推理过程中能够借助工具，对图像进行缩放、旋转或裁剪，最终识别出笔记上的手写内容。

图片来源：OpenAI
去年9月，OpenAI率先推出推理模型o1，引领了大模型范式的转变。自那以来，全球许多大模型厂商都发布了自己的推理模型，包括谷歌Gemini 2.5、Grok 3，以及国内的DeepSeek-R1、通义千问QwQ-32B等，对OpenAI形成了追赶。3月底，阿里通义也推出了视觉推理模型QVQ-Max，同样主打能结合图片、视频信息进行分析和推理。
激烈的竞争让OpenAI对新模型的发布更为迫切。据英国《金融时报》上周报道，OpenAI一直在推动尽早发布o3模型，使得员工和第三方组织仅能在几天时间内，对模型性能和风险进行安全评估。而2023年发布的GPT-4模型，经过了6个月的评估。OpenAI强调，已对o3、o4-mini两个模型进行了至今最严格的安全压力测试。
事实上，o3模型原本并不在OpenAI的预期路线图中。2月中，OpenAI CEO Sam Altman曾在社交平台X上表示，将不会单独发布o3模型，而是会将o3的技术集成到下一代GPT-5模型中，预计在几周或几个月内推出。Sam Altman曾多次抱怨，算力的限制导致公司不得不推迟新模型的发布。今年3月OpenAI完成400亿美元的新融资后，他终于表示"不再受到计算限制"。
OpenAI称，o3和o4-mini的发布反映了其模型的发展方向：将o系列的推理能力，与GPT系列的对话能力、工具使用能力相融合。"通过统一这些优势，我们未来的模型将支持无缝、自然的对话，同时进行主动的工具使用和高级问题解决。"

[ 此帖被姜谷粉丝在2025-04-17 09:23重新编辑 ]

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 129358

金币: 127210

道行: 20023

原创: 757

奖券: 68

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 13960(小时)
注册时间: 2012-06-21
最后登录: 2025-04-22

只看该作者沙发发表于: 04-17

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

以下是OpenAI最新发布的推理模型o3和o4-mini的核心信息整理，结合行业竞争背景和技术突破方向：

一、新模型核心升级
性能全面提升

o3模型：在数学、编码、科学及视觉感知领域表现超越前代o1和o3-mini，擅长处理需要多角度分析的复杂问题，推理时间更长（如示例中耗时40秒生成含图表的答案）。
o4-mini模型：轻量级优化版本，提供快速且低成本的推理服务，适合常规任务。
图像思考能力突破
新模型不仅能识别图像，还能将视觉信息融入思维链。例如，用户上传倒置的手写笔记照片时，模型通过工具对图像进行旋转、缩放等处理，最终解析内容。

工具协同使用
支持组合调用ChatGPT的多种工具，包括网页搜索、Python数据分析、图像生成等。例如，分析电池技术对电动汽车影响时，o3可生成图文并茂的结论，结合实时搜索数据和图表。

二、技术突破与训练方法
计算量驱动性能：OpenAI发现强化学习与GPT预训练类似，计算量越大性能越优。此次训练计算量和推理思考量均提升一个数量级。
工具使用训练：通过强化学习训练模型自主调用工具，提升问题解决效率。
三、竞争压力与战略调整
行业背景：自2024年9月OpenAI推出首款推理模型o1后，谷歌（Gemini 2.5）、阿里（QVQ-Max）、DeepSeek等企业加速追赶，通义千问等国内模型也在视觉推理领域发力。
紧急发布原因：据《金融时报》报道，OpenAI为应对竞争，将o3的安全评估期压缩至数天（GPT-4评估耗时6个月）。此前Sam Altman曾计划将o3技术整合至GPT-5，但因融资后算力充足而提前独立发布。
四、安全与未来方向
安全测试：官方称对o3和o4-mini进行了“最严格压力测试”，但未披露具体风险细节23。
技术融合战略：未来模型将结合o系列推理能力与GPT的对话交互优势，实现更自然的“主动工具使用+复杂问题解决”

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 145467

金币: 96059

道行: 1988

原创: 2393

奖券: 2610

斑龄: 33

道券: 936

获奖: 0

座驾

设备

摄影级

在线时间: 33899(小时)
注册时间: 2008-10-01
最后登录: 2025-04-22

只看该作者板凳发表于: 04-17

　　OpenAI在4月16日发布了两款新的推理模型o3和o4-mini，这些模型被描述为迄今为止最智能的模型，它们在智能性和实用性方面设定了全新标准。o3模型是OpenAI迄今为止最强大的推理模型，它在数学、编码、科学和视觉感知等领域的表现超越了前代模型。o3非常适合处理需要多方面分析的复杂查询，而o4-mini则是一款优化的小型模型，旨在提供快速且经济高效的推理。

　　在o3的开发过程中，OpenAI发现了一个与GPT系列预训练相同的趋势：计算量越大，性能越好。因此，他们在训练计算量和推理过程中的思考方面都提升了数量级，从而实现了明显的性能提升。通过强化学习，新模型还学会了使用工具。

　　o3和o4-mini能够组合使用ChatGPT中的所有工具，包括网页搜索、图像生成和使用Python分析数据等。在提供的示例中，o3模型经过40秒的推理时间，多次使用搜索功能，除了文字回复外还能直接生成图像和图表。

　　新模型在视觉推理方面也取得了突破。它们不仅可以“看到”图像，还能够用图像来思考，并将图像整合到思维链中。例如，当用户上传一张倒着拍的手写笔记照片时，模型能够借助工具对图像进行缩放、旋转或裁剪，最终识别出笔记上的手写内容。

　　OpenAI强调，他们对o3和o4-mini两个模型进行了至今最严格的安全压力测试。这些新模型的发布反映了OpenAI将o系列的推理能力与GPT系列的对话能力、工具使用能力相融合的发展方向。未来的模型将支持无缝、自然的对话，同时进行主动的工具使用和高级问题解决。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]激烈竞争下OpenAI发布最新推理模型，新增图像思考、工具使用能力 [3P] [复制链接]