人工智慧領域的領導者 OpenAI 再度投下震撼彈,於今日正式發佈其 o 系列最新推理模型 OpenAI o3 與 OpenAI o4-mini。這兩款模型不僅代表了 OpenAI 迄今為止最智慧、最強大的模型世代,更首次實現了將圖像深度整合進推理過程,並能自主、靈活地調用 ChatGPT 內建的所有工具,在解決複雜問題的能力上邁出了關鍵一步,預示著「代理型 AI」(Agentic AI)時代的加速到來。
核心突破:更長思考、圖像推理、全工具整合
o 系列模型的核心設計理念在於「在回應前思考更久」(trained to think for longer before responding),使其能夠更深入地分析問題。o3 與 o4-mini 在此基礎上實現了三大突破:
- 頂尖推理性能:透過大規模強化學習 (RL) 的持續投入,驗證了「更多運算力 = 更佳性能」的趨勢同樣適用於推理。o3 與 o4-mini 在多項學術基準測試和真實世界任務中展現了卓越的性能。
- 圖像思考能力:首次實現模型能將圖像直接整合進思考鏈。它們不只能「看見」圖像,更能**「用圖像思考」**,理解如白板草圖、教科書圖表、模糊照片等視覺資訊,甚至在推理過程中對圖像進行縮放、旋轉等操作。
- 代理式工具使用:模型能自主判斷「何時」及「如何」結合使用 ChatGPT 內的所有工具,包括網頁搜尋、使用 Python 分析數據和檔案、視覺輸入推理、甚至生成圖像(DALL·E)。這種能力使它們能像專家一樣,獨立規劃並執行多步驟任務,解決更複雜、多面向的問題。
模型亮點介紹:o3 強大、o4-mini 高效
OpenAI o3
- 定位:OpenAI 目前最頂尖、最強大的推理模型。
- 強項:在程式編碼 (Coding)、數學、科學、視覺感知等領域樹立新標竿,特別擅長需要多面向分析、答案不明顯的複雜查詢,以及分析圖像、圖表等視覺任務。
- 表現:在 Codeforces、SWE-Bench Verified 等編碼基準測試及 MMMU 等多模態測試中達到 SOTA (State-of-the-Art) 水準。外部專家評估其在困難任務中,重大錯誤比 o1 減少 20%。早期測試者稱讚其作為「思考夥伴」的分析嚴謹性,尤其在生物、數學、工程領域能生成並批判性評估新穎假設。
OpenAI o4-mini
- 定位:為速度和成本效益優化的輕量級推理模型。
- 強項:以其規模和成本實現了驚人的性能,尤其在數學、編碼和視覺任務上表現突出。支援比 o3 更高的使用量限制,適合需要大量、高吞吞吐量推理的應用。
- 表現:在美國數學邀請賽 AIME 2024 和 2025 基準測試中取得 最高分 (93.4% / 92.7%),甚至超越了 o3。在 Codeforces 競賽中獲得 2719 ELO,躋身頂尖工程師之列。專家評估其在非 STEM 任務及數據科學領域也優於前代 o3-mini。
性能與成本效益的飛躍
OpenAI 強調,新模型不僅更智慧,通常也比前代模型 (o1, o3-mini) 更具成本效益。無論在 AIME 數學競賽還是 GPQA 科學問答等基準測試中,o3 相較於 o1、o4-mini 相較於 o3-mini,都在「成本-性能」曲線上實現了顯著的提升。這意味著對於大多數實際應用場景,用戶有望以更低的成本獲得更強大的能力。
API 定價方面:
- o3:每百萬輸入 token 10 美元,輸出 token 40 美元。
- o4-mini:每百萬輸入 token 1.10 美元,輸出 token 4.40 美元。 o4-mini 展現出極高的CP值優勢。
安全性提升
伴隨模型能力的提升,OpenAI 也全面升級了安全措施,重建了安全訓練數據集,特別針對生物風險、惡意軟體生成、越獄等領域進行強化。同時開發了基於人類可解釋規範的 LLM 監控器,並根據其「準備度框架」進行了嚴格壓力測試,確認 o3 與 o4-mini 在生物化學、網路安全、AI 自我改進等領域均低於「高風險」閾值。
Codex CLI:終端上的 AI 編碼助手
此外,OpenAI 還推出了一個實驗性開源工具 Codex CLI,這是一個可在終端運行的輕量級編碼代理,旨在最大化 o3、o4-mini 等模型的推理能力,支援本地程式碼操作和多模態輸入。OpenAI 同步啟動了 100 萬美元的獎勵計畫,支持基於 Codex CLI 和 OpenAI 模型的專案。
如何開始使用
- ChatGPT 用戶:Plus、Pro 和 Team 用戶已可在模型選擇器中看到 o3、o4-mini 和 o4-mini-high (取代 o1、o3-mini、o3-mini-high)。Enterprise 和 Edu 用戶將在一週後獲得存取權限。免費版用戶可在提交查詢前選擇「Think」按鈕試用 o4-mini。
- 開發者:o3 和 o4-mini 已透過 Chat Completions API 和 Responses API 開放。後者支援推理摘要、保留函數調用周圍的推理 token 等特性,並將很快支援內建工具。o3-pro 預計在數週後發布。
未來展望:融合與進化
o3 與 o4-mini 的發佈,清晰地揭示了 OpenAI 模型發展的方向:融合 o 系列的專業推理能力與 GPT 系列的自然對話、工具使用能力。未來的模型將致力於支持流暢自然的對話,同時具備主動的工具使用和先進的問題解決能力,朝著更強大、更自主的通用人工智慧持續邁進。這次的更新,無疑是 ChatGPT 邁向真正「代理 AI」的關鍵轉折點。
題外話
在 14 日時,OpenAI 的 CEO Sam Altman 在 Twitter 上透露了這週將會有很多好東西發布,看來是真的沒有辜負大家的期待呢w
we've got a lot of good stuff for you this coming week!
— Sam Altman (@sama) April 13, 2025
kicking it off tomorrow.