過去我曾介紹過 OpenAI 開源的 Whisper 語音辨識模型,至今我仍常用它來生成影片字幕。但最近,我的工作流程有了重大升級!
自從 Google Gemini 2.5 Pro 推出後,其 優異的多模態辨識能力 和 超大的 Context Window,讓字幕校稿工作迎來了革命性的改變。
字幕校稿的痛點
雖然 Whisper 生成的字幕效果已經相當出色,通常只需要丟進 ArcTime 這類軟體稍微校正時間軸和錯字即可。但這個「稍微」校正,往往仍需花費 影片時長 1.5 倍左右的時間。特別是遇到專有名詞時,Whisper 常常會辨識錯誤,修正起來相當費神。
Gemini + Whisper 新工作流:速度提升 10 倍!
現在,我們可以利用 Gemini 作為強大語言模型的特性,讓它直接 讀取音檔 和 Whisper 的初步字幕,並 理解全文語意 來進行校正。這不僅能修正錯字,還能處理專有名詞,甚至自動加上必要的標點符號,大幅節省校稿時間!
以下就來分享具體的操作方法:
步驟 1:使用 Whisper 生成初步字幕
首先,我會使用 WhisperDesktop (基於 Whisper CPP,無 GPU 也能快速運行) 或其他 Whisper 工具,生成影片的初步 .srt
字幕檔。
步驟 2:進入 Google AI Studio 並選擇模型
接著,前往 Google AI Studio。確保右側模型選擇了 Gemini 2.5 Pro。
步驟 3:上傳音檔與初步字幕
你可以直接上傳影片,但強烈建議只上傳音檔 (如果檔案室 .wav
,建議壓成 .mp3
節省上傳時間)。雖然 Gemini 2.5 Pro 可以理解影像內容,但對字幕校稿來說,影像通常不是必需的,只會增加上傳時間和 Token 消耗。
點擊上傳按鈕,選擇你的音檔,或是直接 Ctrl+C、Ctrl+V 貼上也可以。
步驟 4:輸入關鍵提示詞 (Prompt)
這是最重要的一步。你需要告訴 Gemini 你的需求。以下提供一個範本提示詞,我自己測試,這樣下提示詞的效果最好:
|
|
額外提示 (可選,但強烈建議加上)
如果可以的話,建議可以進一步提供給 Gemini 影片的主題,與裡面可能會用到的關鍵字,這能幫助它更好地理解全文語意。例如:
|
|
合起來就會變
|
|
步驟 5:獲取並檢查校正結果
輸入完畢後,按下 Ctrl + Enter
或點擊送出。稍等片刻,Gemini 就會開始推理並輸出校正後的字幕。
我們可以看到,校正後的字幕幾乎沒有錯誤,標點符號也加上了,效果非常好!
步驟 6:處理可能的專有名詞錯誤 (如有)
儘管 Gemini 很強大,但對於較新且未在提示詞中提及的專有名詞,如 Gemini 2.5 Pro
、o3-mini
,如果提示詞沒寫,它仍可能辨識錯誤 (例如寫成舊版或其他模型名稱)。
這時有兩種處理方式:
- 繼續對話: 直接在聊天介面中指出錯誤,讓 Gemini 修正。
- 手動取代: 將輸出的字幕複製出來,使用文字編輯器的「尋找並取代」功能,一次性修正。
由於 Gemini 輸出同一詞彙的用字通常很統一,不像 Whisper 可能有多種拼法,因此取代起來非常方便。所以個人會比較推薦直接下載下來手動取代。
步驟 7:(選用) 使用 ArcTime 最終檢查
最後,可以將校正好的字幕檔再匯入 ArcTime 或其他字幕編輯軟體。主要目的是快速檢查沒有說話的空白片段,字幕是否被錯誤地連接起來。Whisper 預設輸出的時間戳通常已經相當準確,不太需要大幅調整。
檢查無誤後,即可輸出最終字幕檔,上傳到 YouTube 或其他平台使用!
此方法的限制與注意事項
這個方法雖然高效,但也有一些限制:
- 依賴網路服務: 整個流程需要連網使用 Google AI Studio,網路速度與上傳的音檔格式會影響上傳時間。
- 隱私考量: 對於高度機密或不希望上傳到雲端的內容 (如公司內部訓練影片),雖然 Google 的資安值得信賴,但仍需謹慎評估,不建議使用此方法。
- 輸出長度限制: 對於非常長的影片 (例如超過 50 分鐘),即使只上傳音檔不易超過 Token 輸入限制,但單次輸出的 Token 數量仍可能達到上限,導致字幕被截斷。屆時可能需要分段處理。
結語
以上就是利用 Google Gemini 2.5 Pro 加速 Whisper 字幕校稿的最新工作流程分享。透過結合 Whisper 的快速生成和 Gemini 的強大語意理解與校正能力,我們可以將繁瑣的字幕校稿工作效率提升數倍,將更多時間專注於內容創作本身!
如果你覺得這個方法有用,不妨試試看,也歡迎分享你的使用心得!