別再慢慢上字幕了！Gemini + Whisper 字幕工作流，上字幕速度快 10 倍！

過去我曾介紹過 OpenAI 開源的 Whisper 語音辨識模型，至今我仍常用它來生成影片字幕。但最近，我的工作流程有了重大升級！

自從 Google Gemini 2.5 Pro 推出後，其 優異的多模態辨識能力 和 超大的 Context Window，讓字幕校稿工作迎來了革命性的改變。

字幕校稿的痛點

雖然 Whisper 生成的字幕效果已經相當出色，通常只需要丟進 ArcTime 這類軟體稍微校正時間軸和錯字即可。但這個「稍微」校正，往往仍需花費 影片時長 1.5 倍左右的時間。特別是遇到專有名詞時，Whisper 常常會辨識錯誤，修正起來相當費神。

現在，我們可以利用 Gemini 作為強大語言模型的特性，讓它直接 讀取音檔 和 Whisper 的初步字幕，並 理解全文語意 來進行校正。這不僅能修正錯字，還能處理專有名詞，甚至自動加上必要的標點符號，大幅節省校稿時間！

以下就來分享具體的操作方法：

首先，我會使用 WhisperDesktop (基於 Whisper CPP，無 GPU 也能快速運行) 或其他 Whisper 工具，生成影片的初步 .srt 字幕檔。

接著，前往 Google AI Studio。確保右側模型選擇了 Gemini 2.5 Pro。

你可以直接上傳影片，但強烈建議只上傳音檔 (如果檔案室 .wav，建議壓成 .mp3 節省上傳時間)。雖然 Gemini 2.5 Pro 可以理解影像內容，但對字幕校稿來說，影像通常不是必需的，只會增加上傳時間和 Token 消耗。

點擊上傳按鈕，選擇你的音檔，或是直接 Ctrl+C、Ctrl+V 貼上也可以。

這是最重要的一步。你需要告訴 Gemini 你的需求。以下提供一個範本提示詞，我自己測試，這樣下提示詞的效果最好：

1
2
3
4
5


以下是音檔的字幕檔，請根據音檔的內容，嘗試理解音檔的全文語義，校正字幕中的錯誤，使用繁體中文輸出。此音檔的主題是...

```
<Whisper 轉錄的字幕內容>
```

如果可以的話，建議可以進一步提供給 Gemini 影片的主題，與裡面可能會用到的關鍵字，這能幫助它更好地理解全文語意。例如：

1

此音檔的主題是介紹如何透過 Google AI Studio 使用 Gemini 2.5 Pro，校正由 Whisper 生成的字幕。

合起來就會變

1

以下是音檔的字幕檔，請根據音檔的內容，嘗試理解音檔的全文語義，校正字幕中的錯誤，使用繁體中文輸出。此音檔的主題是介紹如何透過 Google AI Studio 使用 Gemini 2.5 Pro，校正由 Whisper 生成的字幕。

輸入完畢後，按下 Ctrl + Enter 或點擊送出。稍等片刻，Gemini 就會開始推理並輸出校正後的字幕。

我們可以看到，校正後的字幕幾乎沒有錯誤，標點符號也加上了，效果非常好！

儘管 Gemini 很強大，但對於較新且未在提示詞中提及的專有名詞，如 Gemini 2.5 Pro、o3-mini，如果提示詞沒寫，它仍可能辨識錯誤 (例如寫成舊版或其他模型名稱)。

這時有兩種處理方式：

由於 Gemini 輸出同一詞彙的用字通常很統一，不像 Whisper 可能有多種拼法，因此取代起來非常方便。所以個人會比較推薦直接下載下來手動取代。

最後，可以將校正好的字幕檔再匯入 ArcTime 或其他字幕編輯軟體。主要目的是快速檢查沒有說話的空白片段，字幕是否被錯誤地連接起來。Whisper 預設輸出的時間戳通常已經相當準確，不太需要大幅調整。

檢查無誤後，即可輸出最終字幕檔，上傳到 YouTube 或其他平台使用！

這個方法雖然高效，但也有一些限制：

依賴網路服務: 整個流程需要連網使用 Google AI Studio，網路速度與上傳的音檔格式會影響上傳時間。
隱私考量: 對於高度機密或不希望上傳到雲端的內容 (如公司內部訓練影片)，雖然 Google 的資安值得信賴，但仍需謹慎評估，不建議使用此方法。
輸出長度限制: 對於非常長的影片 (例如超過 50 分鐘)，即使只上傳音檔不易超過 Token 輸入限制，但單次輸出的 Token 數量仍可能達到上限，導致字幕被截斷。屆時可能需要分段處理。