Google 發布 Gemini 2.5 Flash 預覽版：導入思考預算，提升推理彈性

Google 近日正式宣布推出其最新語言模型的預覽版 —— Gemini 2.5 Flash。此版本標誌著 Google 在模型效率與控制性方面的新進展，特別導入了創新的可控推理功能與 思考預算（Thinking Budget 機制，旨在賦予開發者前所未有的彈性，以便在應用程式的速度、運算成本及輸出品質之間，根據實際需求進行更精確的調校。

相較於之前的版本，Gemini 2.5 Flash 在維持其著稱的高運算效率基礎上，顯著增強了對複雜任務的理解與處理能力。尤其在需要多步驟推理的指令場景下，新模型的準確度獲得了明顯提升。

目前模型已經在 Google AI Studio 與 Gemini App 上開方使用者免費使用，且 Gemini 的網頁版還可以搭配 Canvas 功能使用，直接用來製作或修改一些網頁。

混合式推理與思考預算機制

Gemini 2.5 Flash 的核心突破在於其作為 Google 首款混合式推理模型的設計。它引入了創新的可控推理能力與 「思考預算」（Thinking Budget） 機制。開發者現在可以透過 API 或 Google AI Studio 介面，細緻地控制模型的「思考」深度。透過設定 thinking_budget 參數（Token 上限範圍從 0 到 24,576），開發者能為模型的推理過程分配資源預算。系統會智慧地根據輸入提示的複雜度，自動判斷是否需要啟用以及在多大程度上運用推理能力，有效避免了對簡單請求的過度計算。若將預算設為零，模型則會以最低延遲模式運行，快速回應。

Gemini 2.5 Flash 模型可以自行決定思考的長度，以降低延遲與節約成本

這種架構上的革新直接轉化為顯著的效能提升和更具彈性的成本結構。從 Google 公布的基準測試數據（截至 2025 年 4 月 17 日）來看，Gemini 2.5 Flash 在多個領域展現了令人矚目的進步。例如，在涉及複雜推理的數學（AIME 2025/2024）和科學（GPQA diamond）基準測試中，其 pass@1 分數相較於 Gemini 2.0 Flash 實現了翻倍甚至接近三倍的增長，達到 78% 至 88% 的水平。同樣，在程式碼生成（LiveCodeBench v5）和編輯（Aider Polyglot）任務上，效能也獲得了大幅躍升，分數提高了近 30 個百分點。

更重要的是，這種效能提升並未以犧牲效率或大幅增加成本為代價。Gemini 2.5 Flash 在多模態理解（MMMU, Vibe-Eval）、長上下文處理（MRCR 128k）以及多語言能力（Global MMLU Lite）方面也表現出色，分數均超越前代。其定價策略也體現了這種彈性：輸入成本為每百萬 Token $0.15，而輸出成本則根據是否啟用推理，分為 $0.60（無推理）和 $3.50（啟用推理）兩種模式。這使得開發者能夠根據具體任務需求，在獲得高品質推理結果與控制成本、追求低延遲之間找到最佳平衡點。