OpenAI 推出全新「思考型」語言模型 o1：程式、數學難題迎刃而解，堪比博士等級專家，但費用更高

OpenAI 在 9 月 12 日正式發表了全新的大型語言模型 (LLM) o1，以及更有效率、更適合開發者的 o1-mini 版本，ChatGPT 付費用戶可以優先體驗。OpenAI 形容 o1 是一個會在給出最終答案之前先進行「思考」的模型，能夠解決更困難的科學、數學和程式設計問題。

o1 模型的最大特色，在於它能夠避免一些傳統生成式 AI 常會遇到的推理陷阱，並花更多時間去思考問題的各個面向。OpenAI 表示，o1 與其他 AI 模型的不同之處，就在於它在回答問題之前會先進行「思考」。就像人類在面對難題時，會先仔細思考、分析各種可能性，最後才得出結論一樣，o1 模型也具備了這種「深思熟慮」的能力，這也是讓 o1 在許多需要深度推理的任務中，表現出色的關鍵。

o1 模型的「思考鏈」：強化學習的成果

o1 模型之所以能有如此驚人的表現，關鍵在於它獨特的「思考鏈」(Chain of Thought, CoT) 機制。OpenAI 研究科學家 Noam Brown 在 X 平台上表示，「o1 接受強化學習訓練，透過私有思考鏈，它會在做出反應前先『思考』，思考的時間越長，推理任務的表現越好」。他形容 o1 的訓練過程就像一個獎懲制度，當模型推理出正確答案時會得到獎勵，反之則會受到懲罰。

o1 is trained with RL to “think” before responding via a private chain of thought. The longer it thinks, the better it does on reasoning tasks. This opens up a new dimension for scaling. We’re no longer bottlenecked by pretraining. We can now scale inference compute too. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) September 12, 2024

OpenAI 使用新的演算法，並以包含專門為推理任務量身打造的「推理資料」和科學文獻做為訓練資料集，讓 o1 模型能夠更有效地運用思考鏈，並不斷精進其推理策略。

o1 模型的驚人表現：數學、程式設計能力大幅提升

o1 模型在處理複雜任務方面有了相當大的改進，根據 OpenAI 所述，相較於 GPT-4o，o1 模型能夠處理較複雜的程式、數學難題。其中測試的 GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試資料集，o1 甚至在博士等級的科學問題方面，得到比部分人類專家更高的分數。

o1 可處理較為複雜的程式、數學難題，甚至是博士等級的科學問題

與 GPT-4o 相比，o1 在多項基準測試有更好的表現。（Source：OpenAI）

在國際數學奧林匹亞競賽 (IMO) 試題的測試中，OpenAI 宣稱 o1 的答對率高達 83%，而 GPT-4o 模型只有 13%。此外，OpenAI 模擬了 Codeforces 的程式設計競賽，其中 o1 的表現也勝過 89% 的競爭對手，甚至比 Google DeepMind 的 AlphaCode 2 模型表現更好。

Codeforces 得分排名（Source：OpenAI）

o1 模型的應用潛力：資料分析、科學研究、程式開發

綜合來看，OpenAI 稱 o1 在資料分析、科學問題、程式設計方面都有更出色的表現。例如，GitHub Copilot 已經開始測試支援 o1，GitHub 團隊認為 o1 確實擅長最佳化演算法和應用程式碼。

GitHub Copilot 已經開始測試支援 o1（Source：GitHub）

o1 並非 GPT-4o 的下一代產品，而是作為 GPT-4o 的補充。OpenAI 技術長 Mira Murati 告訴外媒 Wired，OpenAI 正在打造下一代模型 GPT-5，規模將會比以往的模型更大。

o1 模型的限制：功能、使用次數和價格

目前 ChatGPT Plus 或 ChatGPT Team 的付費用戶已經可以使用 o1 模型，企業版和教育版用戶則在下週可以獲得使用權限。OpenAI 計劃在未來向所有 ChatGPT 免費用戶開放 o1-mini，但尚未確定開放時程。

OpenAI 目前對 o1 的訪問有所限制，同時有意向免費用戶開放 o1-mini，但尚未確定時間（Source：OpenAI）

然而，需要注意的是，o1 模型目前有一些使用限制：

功能限制： 與 GPT-4o 相比，o1 還無法瀏覽網頁或分析文件，雖然 o1 擁有圖像分析功能，但尚未開放，仍在進行更多測試。
使用次數限制： o1-preview 每週限制提問 30 次，o1-mini 每週則限制 50 次。
價格昂貴： o1 模型的價格非常昂貴。透過 API 使用 o1 預覽版的價格為每百萬個輸入 token 收費 15 美元，每百萬個輸出 token 收費 60 美元。與 GPT-4o 相比，o1 的輸入成本是 GPT-4o 的 3 倍（每百萬個輸入 token 5 美元），輸出成本則是 4 倍（每百萬個輸出 token 15 美元）。

OpenAI o1-preview 與 o1-mini 價格（Source：OpenAI）