OpenAI 發佈 o3 與 o4-mini：史上最強推理模型，實現圖像思考與全工具整合

人工智慧領域的領導者 OpenAI 再度投下震撼彈，於今日正式發佈其 o 系列最新推理模型 OpenAI o3 與 OpenAI o4-mini。這兩款模型不僅代表了 OpenAI 迄今為止最智慧、最強大的模型世代，更首次實現了將圖像深度整合進推理過程，並能自主、靈活地調用 ChatGPT 內建的所有工具，在解決複雜問題的能力上邁出了關鍵一步，預示著「代理型 AI」（Agentic AI）時代的加速到來。

核心突破：更長思考、圖像推理、全工具整合

o 系列模型的核心設計理念在於「在回應前思考更久」（trained to think for longer before responding），使其能夠更深入地分析問題。o3 與 o4-mini 在此基礎上實現了三大突破：

頂尖推理性能：透過大規模強化學習 (RL) 的持續投入，驗證了「更多運算力 = 更佳性能」的趨勢同樣適用於推理。o3 與 o4-mini 在多項學術基準測試和真實世界任務中展現了卓越的性能。
圖像思考能力：首次實現模型能將圖像直接整合進思考鏈。它們不只能「看見」圖像，更能**「用圖像思考」**，理解如白板草圖、教科書圖表、模糊照片等視覺資訊，甚至在推理過程中對圖像進行縮放、旋轉等操作。
代理式工具使用：模型能自主判斷「何時」及「如何」結合使用 ChatGPT 內的所有工具，包括網頁搜尋、使用 Python 分析數據和檔案、視覺輸入推理、甚至生成圖像（DALL·E）。這種能力使它們能像專家一樣，獨立規劃並執行多步驟任務，解決更複雜、多面向的問題。

模型亮點介紹：o3 強大、o4-mini 高效

OpenAI o3

定位：OpenAI 目前最頂尖、最強大的推理模型。
強項：在程式編碼 (Coding)、數學、科學、視覺感知等領域樹立新標竿，特別擅長需要多面向分析、答案不明顯的複雜查詢，以及分析圖像、圖表等視覺任務。
表現：在 Codeforces、SWE-Bench Verified 等編碼基準測試及 MMMU 等多模態測試中達到 SOTA (State-of-the-Art) 水準。外部專家評估其在困難任務中，重大錯誤比 o1 減少 20%。早期測試者稱讚其作為「思考夥伴」的分析嚴謹性，尤其在生物、數學、工程領域能生成並批判性評估新穎假設。

OpenAI o4-mini

定位：為速度和成本效益優化的輕量級推理模型。
強項：以其規模和成本實現了驚人的性能，尤其在數學、編碼和視覺任務上表現突出。支援比 o3 更高的使用量限制，適合需要大量、高吞吞吐量推理的應用。
表現：在美國數學邀請賽 AIME 2024 和 2025 基準測試中取得 最高分 (93.4% / 92.7%)，甚至超越了 o3。在 Codeforces 競賽中獲得 2719 ELO，躋身頂尖工程師之列。專家評估其在非 STEM 任務及數據科學領域也優於前代 o3-mini。

性能與成本效益的飛躍

OpenAI 強調，新模型不僅更智慧，通常也比前代模型 (o1, o3-mini) 更具成本效益。無論在 AIME 數學競賽還是 GPQA 科學問答等基準測試中，o3 相較於 o1、o4-mini 相較於 o3-mini，都在「成本-性能」曲線上實現了顯著的提升。這意味著對於大多數實際應用場景，用戶有望以更低的成本獲得更強大的能力。

API 定價方面：

o3：每百萬輸入 token 10 美元，輸出 token 40 美元。
o4-mini：每百萬輸入 token 1.10 美元，輸出 token 4.40 美元。 o4-mini 展現出極高的CP值優勢。

安全性提升

伴隨模型能力的提升，OpenAI 也全面升級了安全措施，重建了安全訓練數據集，特別針對生物風險、惡意軟體生成、越獄等領域進行強化。同時開發了基於人類可解釋規範的 LLM 監控器，並根據其「準備度框架」進行了嚴格壓力測試，確認 o3 與 o4-mini 在生物化學、網路安全、AI 自我改進等領域均低於「高風險」閾值。

Codex CLI：終端上的 AI 編碼助手

此外，OpenAI 還推出了一個實驗性開源工具 Codex CLI，這是一個可在終端運行的輕量級編碼代理，旨在最大化 o3、o4-mini 等模型的推理能力，支援本地程式碼操作和多模態輸入。OpenAI 同步啟動了 100 萬美元的獎勵計畫，支持基於 Codex CLI 和 OpenAI 模型的專案。

如何開始使用

ChatGPT 用戶：Plus、Pro 和 Team 用戶已可在模型選擇器中看到 o3、o4-mini 和 o4-mini-high (取代 o1、o3-mini、o3-mini-high)。Enterprise 和 Edu 用戶將在一週後獲得存取權限。免費版用戶可在提交查詢前選擇「Think」按鈕試用 o4-mini。
開發者：o3 和 o4-mini 已透過 Chat Completions API 和 Responses API 開放。後者支援推理摘要、保留函數調用周圍的推理 token 等特性，並將很快支援內建工具。o3-pro 預計在數週後發布。

現在即便是免費用戶，只要在 ChatGPT 中點選推理，即可使用 o4-mini

未來展望：融合與進化

o3 與 o4-mini 的發佈，清晰地揭示了 OpenAI 模型發展的方向：融合 o 系列的專業推理能力與 GPT 系列的自然對話、工具使用能力。未來的模型將致力於支持流暢自然的對話，同時具備主動的工具使用和先進的問題解決能力，朝著更強大、更自主的通用人工智慧持續邁進。這次的更新，無疑是 ChatGPT 邁向真正「代理 AI」的關鍵轉折點。