教程 23

教程 23 — OpenClaw Whisper Skill 教程:本地离线语音转文字,零 API 费用(2026)

目标:安装 Whisper Skill,让 OpenClaw 在本地离线转录音频文件,支持中英文,不依赖任何云端 API。


本地 Whisper vs 云端 API 对比

在使用 openclaw whisper 本地部署之前,先了解两种方案的差异:

维度 Whisper 本地(本教程) 云端 API(如 OpenAI Whisper API)
费用 免费,无调用限制 $0.006/分钟,1 小时约 $0.36
隐私 音频不离本机,完全私密 音频上传至云端服务器
网络 无需联网,openclaw 不联网也能用 必须联网,断网无法使用
速度 取决于本地硬件 通常 10-30 秒/小时录音
中文识别 Whisper medium/large 中文准确率 >90% 与本地 large 模型相当

对于包含商业机密或个人隐私的会议录音,本地方案是唯一安全选择。


第一步:安装 Whisper CLI

Whisper Skill 依赖 openai-whisper Python 命令行工具。先安装:

pip install openai-whisper

验证安装成功:

whisper --help
# 输出 usage 信息则表示安装正常

选择模型大小(首次运行时自动下载):

模型 大小 适合场景
tiny 75 MB 快速测试,准确率有限
base 145 MB 英文日常使用
small 483 MB 英中文均可,推荐入门
medium 1.5 GB 中文会议录音,推荐
large 3 GB 最高精度,openclaw 录音文件转文字中文识别首选

如果对中文识别精度要求高,直接用 large 模型,首次下载后之后全部离线运行。


第二步:安装 Skill

在 WebChat 或 Telegram 中发送:

/install @steipete/openai-whisper

验证安装:

pnpm openclaw skills list
# 列表中应出现 openai-whisper

第三步:基础转录

安装完成后,把音频文件路径发给 AI:

帮我转录这个录音:~/Downloads/会议.mp3

或使用斜杠命令:

/whisper ~/Downloads/会议.mp3

Skill 会调用本地 Whisper CLI,输出纯文字转录结果。支持的音频格式:mp3、wav、m4a、flac、ogg、webm。


第四步:指定语言(中文优化)

不指定语言时,Whisper 会自动检测,但对中文混合录音效果不稳定。建议明确指定:

帮我用中文转录这个会议录音:~/Recordings/Q1-总结会.m4a
语言:中文

底层命令等价于:

whisper ~/Recordings/Q1-总结会.m4a --language zh --model medium

对于中英文混合的录音(如技术会议),可以指定 --language zh,Whisper 会优先识别中文并保留英文专有名词。


第五步:输出格式控制

Whisper Skill 支持三种输出格式:

纯文字(默认)

/whisper ~/录音.mp3 --format txt

带时间戳的 SRT 字幕文件(openclaw 输出字幕文件 SRT 的标准方式):

/whisper ~/录音.mp3 --format srt

输出示例:

1
00:00:01,200 --> 00:00:04,800
大家好,今天我们来讨论 Q1 的销售数据。
 
2
00:00:05,100 --> 00:00:09,300
根据最新报告,整体增长了 23%。

JSON 格式(包含词级时间戳,适合进一步处理):

/whisper ~/录音.mp3 --format json

第六步:转录后自动总结

openclaw 会议录音自动转文字总结的完整工作流,只需一条指令:

转录这个会议录音,然后生成会议纪要(包含决策事项、待办清单、负责人):
~/Recordings/weekly-sync.mp3

OpenClaw 会先调用 Whisper Skill 转录,再调用 Summarize Skill(教程 10)生成结构化纪要。


第七步:会议录音实战工作流

完整流程:录音 → 转录 → 纪要 → 保存

1. 录音结束后,把文件路径发给 OpenClaw
2. 指令:把这个会议录音转成会议纪要,保存到 Obsidian 的 /会议记录/ 目录:
   ~/Recordings/2026-03-30-产品会.mp3

OpenClaw 执行步骤:

  1. Whisper Skill 本地转录,生成文字稿
  2. Summarize Skill 提炼会议纪要
  3. 通过 Obsidian MCP 保存到指定目录

如果用 Notion 存档,替换最后一步为 Notion MCP 或 API Gateway Skill(教程 25)。


常见问题

OpenClaw Whisper 能识别中文吗?

可以。Whisper medium 和 large 模型对普通话识别准确率超过 90%,是目前开源语音识别中文效果最好的模型之一。建议使用 --model medium--model large,并通过 --language zh 明确指定语言,避免中英混合录音被误判为英文。方言(粤语、闽南语)目前效果有限。

Whisper 本地转文字需要 GPU 吗?

不需要,CPU 也能运行,只是速度较慢。在 Apple Silicon(M1/M2/M3/M4)上,Whisper 会自动使用 Metal GPU 加速,性能接近独显。如果使用 Intel CPU,建议选择 small 或 medium 模型,large 模型在 CPU 上处理 1 小时录音约需 15-30 分钟。安装时可加 pip install openai-whisper torch 来启用 PyTorch 加速。

转录速度怎么样,1 小时录音要多久?

速度因硬件和模型而异:Apple M2 Pro 使用 medium 模型,1 小时录音约 3-5 分钟;Apple M2 Pro 使用 large 模型约 8-12 分钟;普通 Intel i7 CPU 使用 medium 模型约 20-40 分钟。如果配有 NVIDIA GPU,large 模型可在 2-3 分钟内完成 1 小时录音的转录。

输出的字幕文件(SRT)在哪里?

使用 --format srt 参数时,Whisper 默认将 SRT 文件保存在音频文件所在的同一目录,文件名与音频相同(扩展名改为 .srt)。例如 ~/Downloads/会议.mp3 转录后会生成 ~/Downloads/会议.srt。你也可以在指令中要求 AI 把 SRT 文件复制到指定位置。


下一步

  • 教程 24 — 学会写自己的 Skill 并发布到 ClawHub
  • 教程 10 — 配合 Summarize Skill 让转录结果自动生成总结

关注我们,获取最新 AI 动态

在 X 上关注 @lanmiaoai,第一时间获取教程更新、AI 工具推荐。

立即关注