教程 23 — OpenClaw Whisper Skill 教程:本地離線語音轉文字,零 API 費用(2026)
目標:安裝 Whisper Skill,讓 OpenClaw 在本地離線轉錄音訊檔案,支援中英文,不依賴任何雲端 API。
本地 Whisper vs 雲端 API 對比
在使用 openclaw whisper 本地部署之前,先了解兩種方案的差異:
| 維度 | Whisper 本地(本教程) | 雲端 API(如 OpenAI Whisper API) |
|---|---|---|
| 費用 | 免費,無調用限制 | $0.006/分鐘,1 小時約 $0.36 |
| 隱私 | 音訊不離本機,完全私密 | 音訊上傳至雲端伺服器 |
| 網路 | 無需聯網,openclaw 不聯網也能用 | 必須聯網,斷網無法使用 |
| 速度 | 取決於本地硬體 | 通常 10-30 秒/小時錄音 |
| 中文識別 | Whisper medium/large 中文準確率 >90% | 與本地 large 模型相當 |
對於包含商業機密或個人隱私的會議錄音,本地方案是唯一安全選擇。
第一步:安裝 Whisper CLI
Whisper Skill 依賴 openai-whisper Python 命令列工具。先安裝:
pip install openai-whisper驗證安裝成功:
whisper --help
# 輸出 usage 資訊則表示安裝正常選擇模型大小(首次運行時自動下載):
| 模型 | 大小 | 適合場景 |
|---|---|---|
| tiny | 75 MB | 快速測試,準確率有限 |
| base | 145 MB | 英文日常使用 |
| small | 483 MB | 英中文均可,推薦入門 |
| medium | 1.5 GB | 中文會議錄音,推薦 |
| large | 3 GB | 最高精度,openclaw 錄音檔案轉文字中文識別首選 |
如果對中文識別精度要求高,直接用 large 模型,首次下載後之後全部離線運行。
第二步:安裝 Skill
在 WebChat 或 Telegram 中發送:
/install @steipete/openai-whisper
驗證安裝:
pnpm openclaw skills list
# 列表中應出現 openai-whisper第三步:基礎轉錄
安裝完成後,把音訊檔案路徑發給 AI:
幫我轉錄這個錄音:~/Downloads/會議.mp3
或使用斜線命令:
/whisper ~/Downloads/會議.mp3
Skill 會調用本地 Whisper CLI,輸出純文字轉錄結果。支援的音訊格式:mp3、wav、m4a、flac、ogg、webm。
第四步:指定語言(中文優化)
不指定語言時,Whisper 會自動檢測,但對中文混合錄音效果不穩定。建議明確指定:
幫我用中文轉錄這個會議錄音:~/Recordings/Q1-總結會.m4a
語言:中文
底層命令等價於:
whisper ~/Recordings/Q1-總結會.m4a --language zh --model medium對於中英文混合的錄音(如技術會議),可以指定 --language zh,Whisper 會優先識別中文並保留英文專有名詞。
第五步:輸出格式控制
Whisper Skill 支援三種輸出格式:
純文字(預設):
/whisper ~/錄音.mp3 --format txt
帶時間戳的 SRT 字幕檔案(openclaw 輸出字幕檔案 SRT 的標準方式):
/whisper ~/錄音.mp3 --format srt
輸出示例:
1
00:00:01,200 --> 00:00:04,800
大家好,今天我們來討論 Q1 的銷售資料。
2
00:00:05,100 --> 00:00:09,300
根據最新報告,整體增長了 23%。JSON 格式(包含詞級時間戳,適合進一步處理):
/whisper ~/錄音.mp3 --format json
第六步:轉錄後自動總結
openclaw 會議錄音自動轉文字總結的完整工作流,只需一條指令:
轉錄這個會議錄音,然後生成會議紀要(包含決策事項、待辦清單、負責人):
~/Recordings/weekly-sync.mp3
OpenClaw 會先調用 Whisper Skill 轉錄,再調用 Summarize Skill(教程 10)生成結構化紀要。
第七步:會議錄音實戰工作流
完整流程:錄音 → 轉錄 → 紀要 → 儲存
1. 錄音結束後,把檔案路徑發給 OpenClaw
2. 指令:把這個會議錄音轉成會議紀要,儲存到 Obsidian 的 /會議記錄/ 目錄:
~/Recordings/2026-03-30-產品會.mp3
OpenClaw 執行步驟:
- Whisper Skill 本地轉錄,生成文字稿
- Summarize Skill 提煉會議紀要
- 通過 Obsidian MCP 儲存到指定目錄
如果用 Notion 存檔,替換最後一步為 Notion MCP 或 API Gateway Skill(教程 25)。
常見問題
OpenClaw Whisper 能識別中文嗎?
可以。Whisper medium 和 large 模型對普通話識別準確率超過 90%,是目前開源語音識別中文效果最好的模型之一。建議使用 --model medium 或 --model large,並通過 --language zh 明確指定語言,避免中英混合錄音被誤判為英文。方言(粵語、閩南語)目前效果有限。
Whisper 本地轉文字需要 GPU 嗎?
不需要,CPU 也能運行,只是速度較慢。在 Apple Silicon(M1/M2/M3/M4)上,Whisper 會自動使用 Metal GPU 加速,性能接近獨顯。如果使用 Intel CPU,建議選擇 small 或 medium 模型,large 模型在 CPU 上處理 1 小時錄音約需 15-30 分鐘。安裝時可加 pip install openai-whisper torch 來啟用 PyTorch 加速。
轉錄速度怎麼樣,1 小時錄音要多久?
速度因硬體和模型而異:Apple M2 Pro 使用 medium 模型,1 小時錄音約 3-5 分鐘;Apple M2 Pro 使用 large 模型約 8-12 分鐘;普通 Intel i7 CPU 使用 medium 模型約 20-40 分鐘。如果配有 NVIDIA GPU,large 模型可在 2-3 分鐘內完成 1 小時錄音的轉錄。
輸出的字幕檔案(SRT)在哪裡?
使用 --format srt 參數時,Whisper 預設將 SRT 檔案儲存在音訊檔案所在的同一目錄,檔案名與音訊相同(副檔名改為 .srt)。例如 ~/Downloads/會議.mp3 轉錄後會生成 ~/Downloads/會議.srt。你也可以在指令中要求 AI 把 SRT 檔案複製到指定位置。