OpenAI 推出 GPT-4o mini：輕巧強悍，挑戰 AI 平民化！

最近科技巨頭們皆投入開發小型語言模型，像是微軟的 Phi-3 Mini 和 Google 的 Gemini 1.5 Flash。現在，OpenAI 也帶著他們的秘密武器 GPT-4o mini 加入戰場了！這款輕量級 AI 模型主打高效、低成本，目標是要讓 AI 更容易被應用在各種不同的地方。

這次 OpenAI 推出的 GPT-4o mini，主打的就是「輕巧」和「強悍」。它不僅比其他小語言模型更聰明，理解能力更強，而且價格更親民！雖然體積小，但功能卻一點也不馬虎，OpenAI 宣稱它是「OpenAI 目前最具成本效益」的小型模型，且將取代 GPT-3.5 Turbo 成為 OpenAI 最小的模型。

目前於 ChatGPT 網頁上，不管是免費或付費板用戶，皆已經可以使用 GPT-4o mini 模型，取代原先的 GPT-3.5

GPT-4o mini 的表現如何？

根據 OpenAI 官網介紹，GPT-4o mini 在 MMLU 上得分 82%，目前在 LMSYS 排行榜上的聊天偏好方面勝過 GPT-4，並且更快，也更便宜。

同時 GPT-4o mini 的 context window 大小為 128k 個 Tokens，輸出最長為 16k 個 Tokens，知識截止日期為 2023 年 10 月。且得益於使用 GPT-4o 的改良版 tokenizer，GPT-4o mini 在處理非英語文本時也一樣會更具成本效益。

OpenAI 亦針對 GPT-4o mini 使用常見的 MMLU、GPQA、DROP、MGSM 等測試資料集測試，並在多個學術基準測試中超越了 GPT-3.5 Turbo、Gemini Flash、Claude Haiku 等其他各家公司的小型模型:

1. 文字智能和推理能力

MMLU (Massive Multitask Language Understanding)：
- GPT-4o mini 在這個測試中達到了 82.0% 的正確率，超過了 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。這表明 GPT-4o mini 在處理文字智能和推理任務方面具有優異的表現。

2. 數學和程式能力

MGSM (多語言小學數學)：
- 在測試數學推理的 MGSM 評估中，GPT-4o mini 獲得了 87.0% 的高分，大幅超過 Gemini Flash 的 75.5% 和 Claude Haiku 的 71.7%。
HumanEval (程式能力測試)：
- GPT-4o mini 在程式能力測試中得分為 87.2%，這一成績遠超 Gemini Flash 的 71.5% 和 Claude Haiku 的 75.9%，顯示出其卓越的程式能力。

3. 多模態推理能力

MMMU (多模態推理)：
- 在多模態推理的 MMMU 測試中，GPT-4o mini 獲得了 59.4% 的正確率，高於 Gemini Flash 的 56.1% 和 Claude Haiku 的 50.2%。這反映出其在處理多模態信息方面的強大能力。

4. 功能調用與長上下文處理

OpenAI 表示 GPT-4o mini 在函數呼叫方面表現出色，這使得開發人員可以構建能夠從外部系統提取數據或執行操作的應用程式。
相較於 GPT-3.5 Turbo，GPT-4o mini 提供了更好的長上下文處理性能，能更有效地處理大量的上下文信息。

GPT-4o mini 有哪些優勢？

1. API 價格親民，CP 值爆表：

OpenAI 強調，GPT-4o mini 是他們目前最具成本效益的小模型，在表現更好的情況下，價格比 GPT-3.5 Turbo 便宜了 60% 以上，每 100萬 Tokens 輸入只要 0.15 美元，輸出只要 0.6 美元。讓更多開發者和企業都能更無負擔的使用 AI 技術。

2. 麻雀雖小，五臟俱全：

雖然體積小巧，但 GPT-4o mini 卻擁有強大的能力，在文字理解、推理、數學計算等方面，都超越了其他同級競爭對手，例如 Google 的 Gemini 1.5 Flash 和 Anthropic 的 Claude Haiku。

3. 速度飛快，效率提升：

根據測試，GPT-4o mini 的處理速度也相當驚人，比 GPT-4o 和 GPT-3.5 Turbo 快了兩倍以上，讓你不用再苦苦等待 AI 的回應。

4. 多模態支援，功能更全面：

目前 GPT-4o mini 已經支援文字和圖像輸入，未來還會加入影片和聲音支援，功能將會越來越強大。

GPT-4o mini 可以用來做什麼？

基於以上所介紹 GPT-4o mini 的優點，這可以讓開發人員建立從外部系統擷取數據或採取行動的應用程式(如:呼叫多個API)、分析大量數據，或是提供智慧客服，例如：

在實際應用中，GPT-4o mini 與 Ramp 和 Superhuman 合作，以此來更好地了解 GPT-4o mini 的用例和局限性。他們發現，在從收據文件中提取結構化數據，或在提供電子郵件歷史的情況下生成高品質的郵件回覆時，GPT-4o mini 的表現顯著優於 GPT-3.5 Turbo。

GPT-4o mini 的安全性

OpenAI 於官方文章中也不忘強調其模型的安全性，表示GPT-4o mini 秉持與 GPT-4o 相同的安全性標準，在訓練過程中就已植入安全機制，並經過嚴格的評估。模型在預訓練階段，會過濾掉可能包含仇恨言論、成人內容、個人資訊彙整網站和垃圾訊息等有害資訊。此外，透過 RLHF(基於人類回饋的強化學習) 等技術，進一步校正模型的行為，確保其回應的準確性和可靠性。

並透過創新的指令層級方法，GPT-4o mini 更能抵抗越獄、提示注入和系統提示提取等各種攻擊手段，提升了模型的可靠性，更適合大規模應用。OpenAI 也表示將持續監控 GPT-4o mini 的使用情況，並根據發現的新風險持續提升其安全性。