教程 23 — OpenClaw Whisper Skill 教程：本地離線語音轉文字，零 API 費用（2026）

目標：安裝 Whisper Skill，讓 OpenClaw 在本地離線轉錄音訊檔案，支援中英文，不依賴任何雲端 API。

本地 Whisper vs 雲端 API 對比

在使用 openclaw whisper 本地部署之前，先了解兩種方案的差異：

維度	Whisper 本地（本教程）	雲端 API（如 OpenAI Whisper API）
費用	免費，無調用限制	$0.006/分鐘，1 小時約 $0.36
隱私	音訊不離本機，完全私密	音訊上傳至雲端伺服器
網路	無需聯網，openclaw 不聯網也能用	必須聯網，斷網無法使用
速度	取決於本地硬體	通常 10-30 秒/小時錄音
中文識別	Whisper medium/large 中文準確率 >90%	與本地 large 模型相當

對於包含商業機密或個人隱私的會議錄音，本地方案是唯一安全選擇。

第一步：安裝 Whisper CLI

Whisper Skill 依賴 openai-whisper Python 命令列工具。先安裝：

pip install openai-whisper

驗證安裝成功：

whisper --help
# 輸出 usage 資訊則表示安裝正常

選擇模型大小（首次運行時自動下載）：

模型	大小	適合場景
tiny	75 MB	快速測試，準確率有限
base	145 MB	英文日常使用
small	483 MB	英中文均可，推薦入門
medium	1.5 GB	中文會議錄音，推薦
large	3 GB	最高精度，openclaw 錄音檔案轉文字中文識別首選

如果對中文識別精度要求高，直接用 large 模型，首次下載後之後全部離線運行。

第二步：安裝 Skill

在 WebChat 或 Telegram 中發送：

/install @steipete/openai-whisper

驗證安裝：

pnpm openclaw skills list
# 列表中應出現 openai-whisper

第三步：基礎轉錄

安裝完成後，把音訊檔案路徑發給 AI：

幫我轉錄這個錄音：~/Downloads/會議.mp3

或使用斜線命令：

/whisper ~/Downloads/會議.mp3

Skill 會調用本地 Whisper CLI，輸出純文字轉錄結果。支援的音訊格式：mp3、wav、m4a、flac、ogg、webm。

第四步：指定語言（中文優化）

不指定語言時，Whisper 會自動檢測，但對中文混合錄音效果不穩定。建議明確指定：

幫我用中文轉錄這個會議錄音：~/Recordings/Q1-總結會.m4a
語言：中文

底層命令等價於：

whisper ~/Recordings/Q1-總結會.m4a --language zh --model medium

對於中英文混合的錄音（如技術會議），可以指定 --language zh，Whisper 會優先識別中文並保留英文專有名詞。

第五步：輸出格式控制

Whisper Skill 支援三種輸出格式：

純文字（預設）：

/whisper ~/錄音.mp3 --format txt

帶時間戳的 SRT 字幕檔案（openclaw 輸出字幕檔案 SRT 的標準方式）：

/whisper ~/錄音.mp3 --format srt

輸出示例：

1
00:00:01,200 --> 00:00:04,800
大家好，今天我們來討論 Q1 的銷售資料。
 
2
00:00:05,100 --> 00:00:09,300
根據最新報告，整體增長了 23%。

JSON 格式（包含詞級時間戳，適合進一步處理）：

/whisper ~/錄音.mp3 --format json

第六步：轉錄後自動總結

openclaw 會議錄音自動轉文字總結的完整工作流，只需一條指令：

轉錄這個會議錄音，然後生成會議紀要（包含決策事項、待辦清單、負責人）：
~/Recordings/weekly-sync.mp3

OpenClaw 會先調用 Whisper Skill 轉錄，再調用 Summarize Skill（教程 10）生成結構化紀要。

第七步：會議錄音實戰工作流

完整流程：錄音 → 轉錄 → 紀要 → 儲存

1. 錄音結束後，把檔案路徑發給 OpenClaw
2. 指令：把這個會議錄音轉成會議紀要，儲存到 Obsidian 的 /會議記錄/ 目錄：
   ~/Recordings/2026-03-30-產品會.mp3

OpenClaw 執行步驟：

Whisper Skill 本地轉錄，生成文字稿
Summarize Skill 提煉會議紀要
通過 Obsidian MCP 儲存到指定目錄

如果用 Notion 存檔，替換最後一步為 Notion MCP 或 API Gateway Skill（教程 25）。

常見問題

OpenClaw Whisper 能識別中文嗎？

可以。Whisper medium 和 large 模型對普通話識別準確率超過 90%，是目前開源語音識別中文效果最好的模型之一。建議使用 --model medium 或 --model large，並通過 --language zh 明確指定語言，避免中英混合錄音被誤判為英文。方言（粵語、閩南語）目前效果有限。

Whisper 本地轉文字需要 GPU 嗎？

不需要，CPU 也能運行，只是速度較慢。在 Apple Silicon（M1/M2/M3/M4）上，Whisper 會自動使用 Metal GPU 加速，性能接近獨顯。如果使用 Intel CPU，建議選擇 small 或 medium 模型，large 模型在 CPU 上處理 1 小時錄音約需 15-30 分鐘。安裝時可加 pip install openai-whisper torch 來啟用 PyTorch 加速。

轉錄速度怎麼樣，1 小時錄音要多久？

速度因硬體和模型而異：Apple M2 Pro 使用 medium 模型，1 小時錄音約 3-5 分鐘；Apple M2 Pro 使用 large 模型約 8-12 分鐘；普通 Intel i7 CPU 使用 medium 模型約 20-40 分鐘。如果配有 NVIDIA GPU，large 模型可在 2-3 分鐘內完成 1 小時錄音的轉錄。

輸出的字幕檔案（SRT）在哪裡？

使用 --format srt 參數時，Whisper 預設將 SRT 檔案儲存在音訊檔案所在的同一目錄，檔案名與音訊相同（副檔名改為 .srt）。例如 ~/Downloads/會議.mp3 轉錄後會生成 ~/Downloads/會議.srt。你也可以在指令中要求 AI 把 SRT 檔案複製到指定位置。

下一步

教程 24 — 學會寫自己的 Skill 並發布到 ClawHub
教程 10 — 配合 Summarize Skill 讓轉錄結果自動生成總結