教程 23 — OpenClaw Whisper Skill 教程:本地离线语音转文字,零 API 费用(2026)
目标:安装 Whisper Skill,让 OpenClaw 在本地离线转录音频文件,支持中英文,不依赖任何云端 API。
本地 Whisper vs 云端 API 对比
在使用 openclaw whisper 本地部署之前,先了解两种方案的差异:
| 维度 | Whisper 本地(本教程) | 云端 API(如 OpenAI Whisper API) |
|---|---|---|
| 费用 | 免费,无调用限制 | $0.006/分钟,1 小时约 $0.36 |
| 隐私 | 音频不离本机,完全私密 | 音频上传至云端服务器 |
| 网络 | 无需联网,openclaw 不联网也能用 | 必须联网,断网无法使用 |
| 速度 | 取决于本地硬件 | 通常 10-30 秒/小时录音 |
| 中文识别 | Whisper medium/large 中文准确率 >90% | 与本地 large 模型相当 |
对于包含商业机密或个人隐私的会议录音,本地方案是唯一安全选择。
第一步:安装 Whisper CLI
Whisper Skill 依赖 openai-whisper Python 命令行工具。先安装:
pip install openai-whisper验证安装成功:
whisper --help
# 输出 usage 信息则表示安装正常选择模型大小(首次运行时自动下载):
| 模型 | 大小 | 适合场景 |
|---|---|---|
| tiny | 75 MB | 快速测试,准确率有限 |
| base | 145 MB | 英文日常使用 |
| small | 483 MB | 英中文均可,推荐入门 |
| medium | 1.5 GB | 中文会议录音,推荐 |
| large | 3 GB | 最高精度,openclaw 录音文件转文字中文识别首选 |
如果对中文识别精度要求高,直接用 large 模型,首次下载后之后全部离线运行。
第二步:安装 Skill
在 WebChat 或 Telegram 中发送:
/install @steipete/openai-whisper
验证安装:
pnpm openclaw skills list
# 列表中应出现 openai-whisper第三步:基础转录
安装完成后,把音频文件路径发给 AI:
帮我转录这个录音:~/Downloads/会议.mp3
或使用斜杠命令:
/whisper ~/Downloads/会议.mp3
Skill 会调用本地 Whisper CLI,输出纯文字转录结果。支持的音频格式:mp3、wav、m4a、flac、ogg、webm。
第四步:指定语言(中文优化)
不指定语言时,Whisper 会自动检测,但对中文混合录音效果不稳定。建议明确指定:
帮我用中文转录这个会议录音:~/Recordings/Q1-总结会.m4a
语言:中文
底层命令等价于:
whisper ~/Recordings/Q1-总结会.m4a --language zh --model medium对于中英文混合的录音(如技术会议),可以指定 --language zh,Whisper 会优先识别中文并保留英文专有名词。
第五步:输出格式控制
Whisper Skill 支持三种输出格式:
纯文字(默认):
/whisper ~/录音.mp3 --format txt
带时间戳的 SRT 字幕文件(openclaw 输出字幕文件 SRT 的标准方式):
/whisper ~/录音.mp3 --format srt
输出示例:
1
00:00:01,200 --> 00:00:04,800
大家好,今天我们来讨论 Q1 的销售数据。
2
00:00:05,100 --> 00:00:09,300
根据最新报告,整体增长了 23%。JSON 格式(包含词级时间戳,适合进一步处理):
/whisper ~/录音.mp3 --format json
第六步:转录后自动总结
openclaw 会议录音自动转文字总结的完整工作流,只需一条指令:
转录这个会议录音,然后生成会议纪要(包含决策事项、待办清单、负责人):
~/Recordings/weekly-sync.mp3
OpenClaw 会先调用 Whisper Skill 转录,再调用 Summarize Skill(教程 10)生成结构化纪要。
第七步:会议录音实战工作流
完整流程:录音 → 转录 → 纪要 → 保存
1. 录音结束后,把文件路径发给 OpenClaw
2. 指令:把这个会议录音转成会议纪要,保存到 Obsidian 的 /会议记录/ 目录:
~/Recordings/2026-03-30-产品会.mp3
OpenClaw 执行步骤:
- Whisper Skill 本地转录,生成文字稿
- Summarize Skill 提炼会议纪要
- 通过 Obsidian MCP 保存到指定目录
如果用 Notion 存档,替换最后一步为 Notion MCP 或 API Gateway Skill(教程 25)。
常见问题
OpenClaw Whisper 能识别中文吗?
可以。Whisper medium 和 large 模型对普通话识别准确率超过 90%,是目前开源语音识别中文效果最好的模型之一。建议使用 --model medium 或 --model large,并通过 --language zh 明确指定语言,避免中英混合录音被误判为英文。方言(粤语、闽南语)目前效果有限。
Whisper 本地转文字需要 GPU 吗?
不需要,CPU 也能运行,只是速度较慢。在 Apple Silicon(M1/M2/M3/M4)上,Whisper 会自动使用 Metal GPU 加速,性能接近独显。如果使用 Intel CPU,建议选择 small 或 medium 模型,large 模型在 CPU 上处理 1 小时录音约需 15-30 分钟。安装时可加 pip install openai-whisper torch 来启用 PyTorch 加速。
转录速度怎么样,1 小时录音要多久?
速度因硬件和模型而异:Apple M2 Pro 使用 medium 模型,1 小时录音约 3-5 分钟;Apple M2 Pro 使用 large 模型约 8-12 分钟;普通 Intel i7 CPU 使用 medium 模型约 20-40 分钟。如果配有 NVIDIA GPU,large 模型可在 2-3 分钟内完成 1 小时录音的转录。
输出的字幕文件(SRT)在哪里?
使用 --format srt 参数时,Whisper 默认将 SRT 文件保存在音频文件所在的同一目录,文件名与音频相同(扩展名改为 .srt)。例如 ~/Downloads/会议.mp3 转录后会生成 ~/Downloads/会议.srt。你也可以在指令中要求 AI 把 SRT 文件复制到指定位置。