AI 新聞

OpenAI 發佈 o3 與 o4-mini:史上最強推理模型,實現圖像思考與全工具整合

OpenAI 正式推出其 o 系列最新推理模型 o3 與 o4-mini。這兩款模型不僅是 OpenAI 迄今最智慧、最強大的模型,更首次實現圖像推理與自主工具整合,大幅提升解決複雜問題的能力,朝向「代理型 AI」邁出關鍵一步。

The Walking Fish 步行魚 頭像

· 1904 字 / 閱讀時間: 5 分鐘 · 103

文章 OpenAI 發佈 o3 與 o4-mini:史上最強推理模型,實現圖像思考與全工具整合 的特色圖片

人工智慧領域的領導者 OpenAI 再度投下震撼彈,於今日正式發佈其 o 系列最新推理模型 OpenAI o3OpenAI o4-mini。這兩款模型不僅代表了 OpenAI 迄今為止最智慧、最強大的模型世代,更首次實現了將圖像深度整合進推理過程,並能自主、靈活地調用 ChatGPT 內建的所有工具,在解決複雜問題的能力上邁出了關鍵一步,預示著「代理型 AI」(Agentic AI)時代的加速到來。

核心突破:更長思考、圖像推理、全工具整合

o 系列模型的核心設計理念在於「在回應前思考更久」(trained to think for longer before responding),使其能夠更深入地分析問題。o3 與 o4-mini 在此基礎上實現了三大突破:

  1. 頂尖推理性能:透過大規模強化學習 (RL) 的持續投入,驗證了「更多運算力 = 更佳性能」的趨勢同樣適用於推理。o3 與 o4-mini 在多項學術基準測試和真實世界任務中展現了卓越的性能。
  2. 圖像思考能力:首次實現模型能將圖像直接整合進思考鏈。它們不只能「看見」圖像,更能**「用圖像思考」**,理解如白板草圖、教科書圖表、模糊照片等視覺資訊,甚至在推理過程中對圖像進行縮放、旋轉等操作。
  3. 代理式工具使用:模型能自主判斷「何時」及「如何」結合使用 ChatGPT 內的所有工具,包括網頁搜尋、使用 Python 分析數據和檔案、視覺輸入推理、甚至生成圖像(DALL·E)。這種能力使它們能像專家一樣,獨立規劃並執行多步驟任務,解決更複雜、多面向的問題。

模型亮點介紹:o3 強大、o4-mini 高效

OpenAI o3

  • 定位:OpenAI 目前最頂尖、最強大的推理模型。
  • 強項:在程式編碼 (Coding)、數學、科學、視覺感知等領域樹立新標竿,特別擅長需要多面向分析、答案不明顯的複雜查詢,以及分析圖像、圖表等視覺任務。
  • 表現:在 Codeforces、SWE-Bench Verified 等編碼基準測試及 MMMU 等多模態測試中達到 SOTA (State-of-the-Art) 水準。外部專家評估其在困難任務中,重大錯誤比 o1 減少 20%。早期測試者稱讚其作為「思考夥伴」的分析嚴謹性,尤其在生物、數學、工程領域能生成並批判性評估新穎假設。

OpenAI o4-mini

  • 定位:為速度和成本效益優化的輕量級推理模型。
  • 強項:以其規模和成本實現了驚人的性能,尤其在數學、編碼和視覺任務上表現突出。支援比 o3 更高的使用量限制,適合需要大量、高吞吞吐量推理的應用。
  • 表現:在美國數學邀請賽 AIME 2024 和 2025 基準測試中取得 最高分 (93.4% / 92.7%),甚至超越了 o3。在 Codeforces 競賽中獲得 2719 ELO,躋身頂尖工程師之列。專家評估其在非 STEM 任務及數據科學領域也優於前代 o3-mini。

性能與成本效益的飛躍

OpenAI 強調,新模型不僅更智慧,通常也比前代模型 (o1, o3-mini) 更具成本效益。無論在 AIME 數學競賽還是 GPQA 科學問答等基準測試中,o3 相較於 o1、o4-mini 相較於 o3-mini,都在「成本-性能」曲線上實現了顯著的提升。這意味著對於大多數實際應用場景,用戶有望以更低的成本獲得更強大的能力。

API 定價方面:

  • o3:每百萬輸入 token 10 美元,輸出 token 40 美元。
  • o4-mini:每百萬輸入 token 1.10 美元,輸出 token 4.40 美元。 o4-mini 展現出極高的CP值優勢。

安全性提升

伴隨模型能力的提升,OpenAI 也全面升級了安全措施,重建了安全訓練數據集,特別針對生物風險、惡意軟體生成、越獄等領域進行強化。同時開發了基於人類可解釋規範的 LLM 監控器,並根據其「準備度框架」進行了嚴格壓力測試,確認 o3 與 o4-mini 在生物化學、網路安全、AI 自我改進等領域均低於「高風險」閾值。

Codex CLI:終端上的 AI 編碼助手

此外,OpenAI 還推出了一個實驗性開源工具 Codex CLI,這是一個可在終端運行的輕量級編碼代理,旨在最大化 o3、o4-mini 等模型的推理能力,支援本地程式碼操作和多模態輸入。OpenAI 同步啟動了 100 萬美元的獎勵計畫,支持基於 Codex CLI 和 OpenAI 模型的專案。

如何開始使用

  • ChatGPT 用戶:Plus、Pro 和 Team 用戶已可在模型選擇器中看到 o3、o4-mini 和 o4-mini-high (取代 o1、o3-mini、o3-mini-high)。Enterprise 和 Edu 用戶將在一週後獲得存取權限。免費版用戶可在提交查詢前選擇「Think」按鈕試用 o4-mini。
  • 開發者:o3 和 o4-mini 已透過 Chat Completions API 和 Responses API 開放。後者支援推理摘要、保留函數調用周圍的推理 token 等特性,並將很快支援內建工具。o3-pro 預計在數週後發布。

未來展望:融合與進化

o3 與 o4-mini 的發佈,清晰地揭示了 OpenAI 模型發展的方向:融合 o 系列的專業推理能力與 GPT 系列的自然對話、工具使用能力。未來的模型將致力於支持流暢自然的對話,同時具備主動的工具使用和先進的問題解決能力,朝著更強大、更自主的通用人工智慧持續邁進。這次的更新,無疑是 ChatGPT 邁向真正「代理 AI」的關鍵轉折點。

題外話

在 14 日時,OpenAI 的 CEO Sam Altman 在 Twitter 上透露了這週將會有很多好東西發布,看來是真的沒有辜負大家的期待呢w

分享這篇文章

暱稱
郵箱
網址
0/500
  • OωO
  • |´・ω・)ノ
  • ヾ(≧∇≦*)ゝ
  • (☆ω☆)
  • (╯‵□′)╯︵┴─┴
  •  ̄﹃ ̄
  • (/ω\)
  • ∠( ᐛ 」∠)_
  • (๑•̀ㅁ•́ฅ)
  • →_→
  • ୧(๑•̀⌄•́๑)૭
  • ٩(ˊᗜˋ*)و
  • (ノ°ο°)ノ
  • (´இ皿இ`)
  • ⌇●﹏●⌇
  • (ฅ´ω`ฅ)
  • (╯°A°)╯︵○○○
  • φ( ̄∇ ̄o)
  • ヾ(´・ ・`。)ノ"
  • ( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
  • (ó﹏ò。)
  • Σ(っ °Д °;)っ
  • ( ,,´・ω・)ノ"(´っω・`。)
  • ╮(╯▽╰)╭
  • o(*////▽////*)q
  • >﹏<
  • ( ๑´•ω•) "(ㆆᴗㆆ)
  • 😂
  • 😀
  • 😅
  • 😊
  • 🙂
  • 🙃
  • 😌
  • 😍
  • 😘
  • 😜
  • 😝
  • 😏
  • 😒
  • 🙄
  • 😳
  • 😡
  • 😔
  • 😫
  • 😱
  • 😭
  • 💩
  • 👻
  • 🙌
  • 🖕
  • 👍
  • 👫
  • 👬
  • 👭
  • 🌚
  • 🌝
  • 🙈
  • 💊
  • 😶
  • 🙏
  • 🍦
  • 🍉
  • 😣
  • 颜文字
  • Emoji
  • Bilibili
0 則留言
沒有留言