Featured image of post OpenAI 推出全新「思考型」語言模型 o1:程式、數學難題迎刃而解,堪比博士等級專家,但費用更高

OpenAI 推出全新「思考型」語言模型 o1:程式、數學難題迎刃而解,堪比博士等級專家,但費用更高

OpenAI 在 9 月 12 日正式發表了全新的大型語言模型 o1 具備強大的推理能力,在程式競賽、數學奧林匹克和科學問題等方面表現出色,甚至超越人類專家。

OpenAI 在 9 月 12 日正式發表了全新的大型語言模型 (LLM) o1,以及更有效率、更適合開發者的 o1-mini 版本,ChatGPT 付費用戶可以優先體驗。OpenAI 形容 o1 是一個會在給出最終答案之前先進行「思考」的模型,能夠解決更困難的科學、數學和程式設計問題。

o1 模型的最大特色,在於它能夠避免一些傳統生成式 AI 常會遇到的推理陷阱,並花更多時間去思考問題的各個面向。OpenAI 表示,o1 與其他 AI 模型的不同之處,就在於它在回答問題之前會先進行「思考」。就像人類在面對難題時,會先仔細思考、分析各種可能性,最後才得出結論一樣,o1 模型也具備了這種「深思熟慮」的能力,這也是讓 o1 在許多需要深度推理的任務中,表現出色的關鍵。

o1 模型的「思考鏈」:強化學習的成果

o1 模型之所以能有如此驚人的表現,關鍵在於它獨特的「思考鏈」(Chain of Thought, CoT) 機制。OpenAI 研究科學家 Noam Brown 在 X 平台上表示,「o1 接受強化學習訓練,透過私有思考鏈,它會在做出反應前先『思考』,思考的時間越長,推理任務的表現越好」。他形容 o1 的訓練過程就像一個獎懲制度,當模型推理出正確答案時會得到獎勵,反之則會受到懲罰。

OpenAI 使用新的演算法,並以包含專門為推理任務量身打造的「推理資料」和科學文獻做為訓練資料集,讓 o1 模型能夠更有效地運用思考鏈,並不斷精進其推理策略。

o1 模型的驚人表現:數學、程式設計能力大幅提升

o1 模型在處理複雜任務方面有了相當大的改進,根據 OpenAI 所述,相較於 GPT-4o,o1 模型能夠處理較複雜的程式、數學難題。其中測試的 GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試資料集,o1 甚至在博士等級的科學問題方面,得到比部分人類專家更高的分數

o1 可處理較為複雜的程式、數學難題,甚至是博士等級的科學問題

與 GPT-4o 相比,o1 在多項基準測試有更好的表現。(Source:OpenAI)

在國際數學奧林匹亞競賽 (IMO) 試題的測試中,OpenAI 宣稱 o1 的答對率高達 83%,而 GPT-4o 模型只有 13%。此外,OpenAI 模擬了 Codeforces 的程式設計競賽,其中 o1 的表現也勝過 89% 的競爭對手,甚至比 Google DeepMind 的 AlphaCode 2 模型表現更好。

Codeforces 得分排名(Source:OpenAI)

o1 模型的應用潛力:資料分析、科學研究、程式開發

綜合來看,OpenAI 稱 o1 在資料分析、科學問題、程式設計方面都有更出色的表現。例如,GitHub Copilot 已經開始測試支援 o1,GitHub 團隊認為 o1 確實擅長最佳化演算法和應用程式碼。

GitHub Copilot 已經開始測試支援 o1(Source:GitHub)

o1 並非 GPT-4o 的下一代產品,而是作為 GPT-4o 的補充。OpenAI 技術長 Mira Murati 告訴外媒 Wired,OpenAI 正在打造下一代模型 GPT-5,規模將會比以往的模型更大。

o1 模型的限制:功能、使用次數和價格

目前 ChatGPT Plus 或 ChatGPT Team 的付費用戶已經可以使用 o1 模型,企業版和教育版用戶則在下週可以獲得使用權限。OpenAI 計劃在未來向所有 ChatGPT 免費用戶開放 o1-mini,但尚未確定開放時程。

OpenAI 目前對 o1 的訪問有所限制,同時有意向免費用戶開放 o1-mini,但尚未確定時間(Source:OpenAI)

然而,需要注意的是,o1 模型目前有一些使用限制:

  • 功能限制: 與 GPT-4o 相比,o1 還無法瀏覽網頁或分析文件,雖然 o1 擁有圖像分析功能,但尚未開放,仍在進行更多測試。
  • 使用次數限制: o1-preview 每週限制提問 30 次,o1-mini 每週則限制 50 次
  • 價格昂貴: o1 模型的價格非常昂貴。透過 API 使用 o1 預覽版的價格為每百萬個輸入 token 收費 15 美元,每百萬個輸出 token 收費 60 美元。與 GPT-4o 相比,o1 的輸入成本是 GPT-4o 的 3 倍(每百萬個輸入 token 5 美元),輸出成本則是 4 倍(每百萬個輸出 token 15 美元)。

OpenAI o1-preview 與 o1-mini 價格(Source:OpenAI)