教程 23

教程 23 — OpenClaw Whisper Skill 教程:本地離線語音轉文字,零 API 費用(2026)

目標:安裝 Whisper Skill,讓 OpenClaw 在本地離線轉錄音訊檔案,支援中英文,不依賴任何雲端 API。


本地 Whisper vs 雲端 API 對比

在使用 openclaw whisper 本地部署之前,先了解兩種方案的差異:

維度 Whisper 本地(本教程) 雲端 API(如 OpenAI Whisper API)
費用 免費,無調用限制 $0.006/分鐘,1 小時約 $0.36
隱私 音訊不離本機,完全私密 音訊上傳至雲端伺服器
網路 無需聯網,openclaw 不聯網也能用 必須聯網,斷網無法使用
速度 取決於本地硬體 通常 10-30 秒/小時錄音
中文識別 Whisper medium/large 中文準確率 >90% 與本地 large 模型相當

對於包含商業機密或個人隱私的會議錄音,本地方案是唯一安全選擇。


第一步:安裝 Whisper CLI

Whisper Skill 依賴 openai-whisper Python 命令列工具。先安裝:

pip install openai-whisper

驗證安裝成功:

whisper --help
# 輸出 usage 資訊則表示安裝正常

選擇模型大小(首次運行時自動下載):

模型 大小 適合場景
tiny 75 MB 快速測試,準確率有限
base 145 MB 英文日常使用
small 483 MB 英中文均可,推薦入門
medium 1.5 GB 中文會議錄音,推薦
large 3 GB 最高精度,openclaw 錄音檔案轉文字中文識別首選

如果對中文識別精度要求高,直接用 large 模型,首次下載後之後全部離線運行。


第二步:安裝 Skill

在 WebChat 或 Telegram 中發送:

/install @steipete/openai-whisper

驗證安裝:

pnpm openclaw skills list
# 列表中應出現 openai-whisper

第三步:基礎轉錄

安裝完成後,把音訊檔案路徑發給 AI:

幫我轉錄這個錄音:~/Downloads/會議.mp3

或使用斜線命令:

/whisper ~/Downloads/會議.mp3

Skill 會調用本地 Whisper CLI,輸出純文字轉錄結果。支援的音訊格式:mp3、wav、m4a、flac、ogg、webm。


第四步:指定語言(中文優化)

不指定語言時,Whisper 會自動檢測,但對中文混合錄音效果不穩定。建議明確指定:

幫我用中文轉錄這個會議錄音:~/Recordings/Q1-總結會.m4a
語言:中文

底層命令等價於:

whisper ~/Recordings/Q1-總結會.m4a --language zh --model medium

對於中英文混合的錄音(如技術會議),可以指定 --language zh,Whisper 會優先識別中文並保留英文專有名詞。


第五步:輸出格式控制

Whisper Skill 支援三種輸出格式:

純文字(預設)

/whisper ~/錄音.mp3 --format txt

帶時間戳的 SRT 字幕檔案(openclaw 輸出字幕檔案 SRT 的標準方式):

/whisper ~/錄音.mp3 --format srt

輸出示例:

1
00:00:01,200 --> 00:00:04,800
大家好,今天我們來討論 Q1 的銷售資料。
 
2
00:00:05,100 --> 00:00:09,300
根據最新報告,整體增長了 23%。

JSON 格式(包含詞級時間戳,適合進一步處理):

/whisper ~/錄音.mp3 --format json

第六步:轉錄後自動總結

openclaw 會議錄音自動轉文字總結的完整工作流,只需一條指令:

轉錄這個會議錄音,然後生成會議紀要(包含決策事項、待辦清單、負責人):
~/Recordings/weekly-sync.mp3

OpenClaw 會先調用 Whisper Skill 轉錄,再調用 Summarize Skill(教程 10)生成結構化紀要。


第七步:會議錄音實戰工作流

完整流程:錄音 → 轉錄 → 紀要 → 儲存

1. 錄音結束後,把檔案路徑發給 OpenClaw
2. 指令:把這個會議錄音轉成會議紀要,儲存到 Obsidian 的 /會議記錄/ 目錄:
   ~/Recordings/2026-03-30-產品會.mp3

OpenClaw 執行步驟:

  1. Whisper Skill 本地轉錄,生成文字稿
  2. Summarize Skill 提煉會議紀要
  3. 通過 Obsidian MCP 儲存到指定目錄

如果用 Notion 存檔,替換最後一步為 Notion MCP 或 API Gateway Skill(教程 25)。


常見問題

OpenClaw Whisper 能識別中文嗎?

可以。Whisper medium 和 large 模型對普通話識別準確率超過 90%,是目前開源語音識別中文效果最好的模型之一。建議使用 --model medium--model large,並通過 --language zh 明確指定語言,避免中英混合錄音被誤判為英文。方言(粵語、閩南語)目前效果有限。

Whisper 本地轉文字需要 GPU 嗎?

不需要,CPU 也能運行,只是速度較慢。在 Apple Silicon(M1/M2/M3/M4)上,Whisper 會自動使用 Metal GPU 加速,性能接近獨顯。如果使用 Intel CPU,建議選擇 small 或 medium 模型,large 模型在 CPU 上處理 1 小時錄音約需 15-30 分鐘。安裝時可加 pip install openai-whisper torch 來啟用 PyTorch 加速。

轉錄速度怎麼樣,1 小時錄音要多久?

速度因硬體和模型而異:Apple M2 Pro 使用 medium 模型,1 小時錄音約 3-5 分鐘;Apple M2 Pro 使用 large 模型約 8-12 分鐘;普通 Intel i7 CPU 使用 medium 模型約 20-40 分鐘。如果配有 NVIDIA GPU,large 模型可在 2-3 分鐘內完成 1 小時錄音的轉錄。

輸出的字幕檔案(SRT)在哪裡?

使用 --format srt 參數時,Whisper 預設將 SRT 檔案儲存在音訊檔案所在的同一目錄,檔案名與音訊相同(副檔名改為 .srt)。例如 ~/Downloads/會議.mp3 轉錄後會生成 ~/Downloads/會議.srt。你也可以在指令中要求 AI 把 SRT 檔案複製到指定位置。


下一步

  • 教程 24 — 學會寫自己的 Skill 並發布到 ClawHub
  • 教程 10 — 配合 Summarize Skill 讓轉錄結果自動生成總結

关注我们,获取最新 AI 动态

在 X 上关注 @lanmiaoai,第一时间获取教程更新、AI 工具推荐。

立即关注