教程 23 — OpenClaw Whisper Skill 教程：本地离线语音转文字，零 API 费用（2026）

Q: 输出的字幕文件（SRT）在哪里？

使用 --format srt 参数时，Whisper 默认将 SRT 文件保存在音频文件所在的同一目录，文件名与音频相同（扩展名改为 .srt）。例如 ~/Downloads/会议.mp3 转录后会生成 ~/Downloads/会议.srt。你也可以在指令中要求 AI 把 SRT 文件复制到指定位置。 ---

目标：安装 Whisper Skill，让 OpenClaw 在本地离线转录音频文件，支持中英文，不依赖任何云端 API。

本地 Whisper vs 云端 API 对比

在使用 openclaw whisper 本地部署之前，先了解两种方案的差异：

维度	Whisper 本地（本教程）	云端 API（如 OpenAI Whisper API）
费用	免费，无调用限制	$0.006/分钟，1 小时约 $0.36
隐私	音频不离本机，完全私密	音频上传至云端服务器
网络	无需联网，openclaw 不联网也能用	必须联网，断网无法使用
速度	取决于本地硬件	通常 10-30 秒/小时录音
中文识别	Whisper medium/large 中文准确率 >90%	与本地 large 模型相当

对于包含商业机密或个人隐私的会议录音，本地方案是唯一安全选择。

第一步：安装 Whisper CLI

Whisper Skill 依赖 openai-whisper Python 命令行工具。先安装：

pip install openai-whisper

验证安装成功：

whisper --help
# 输出 usage 信息则表示安装正常

选择模型大小（首次运行时自动下载）：

模型	大小	适合场景
tiny	75 MB	快速测试，准确率有限
base	145 MB	英文日常使用
small	483 MB	英中文均可，推荐入门
medium	1.5 GB	中文会议录音，推荐
large	3 GB	最高精度，openclaw 录音文件转文字中文识别首选

如果对中文识别精度要求高，直接用 large 模型，首次下载后之后全部离线运行。

第二步：安装 Skill

在 WebChat 或 Telegram 中发送：

/install @steipete/openai-whisper

验证安装：

pnpm openclaw skills list
# 列表中应出现 openai-whisper

第三步：基础转录

安装完成后，把音频文件路径发给 AI：

帮我转录这个录音：~/Downloads/会议.mp3

或使用斜杠命令：

/whisper ~/Downloads/会议.mp3

Skill 会调用本地 Whisper CLI，输出纯文字转录结果。支持的音频格式：mp3、wav、m4a、flac、ogg、webm。

第四步：指定语言（中文优化）

不指定语言时，Whisper 会自动检测，但对中文混合录音效果不稳定。建议明确指定：

帮我用中文转录这个会议录音：~/Recordings/Q1-总结会.m4a
语言：中文

底层命令等价于：

whisper ~/Recordings/Q1-总结会.m4a --language zh --model medium

对于中英文混合的录音（如技术会议），可以指定 --language zh，Whisper 会优先识别中文并保留英文专有名词。

第五步：输出格式控制

Whisper Skill 支持三种输出格式：

纯文字（默认）：

/whisper ~/录音.mp3 --format txt

带时间戳的 SRT 字幕文件（openclaw 输出字幕文件 SRT 的标准方式）：

/whisper ~/录音.mp3 --format srt

输出示例：

1
00:00:01,200 --> 00:00:04,800
大家好，今天我们来讨论 Q1 的销售数据。
 
2
00:00:05,100 --> 00:00:09,300
根据最新报告，整体增长了 23%。

JSON 格式（包含词级时间戳，适合进一步处理）：

/whisper ~/录音.mp3 --format json

第六步：转录后自动总结

openclaw 会议录音自动转文字总结的完整工作流，只需一条指令：

转录这个会议录音，然后生成会议纪要（包含决策事项、待办清单、负责人）：
~/Recordings/weekly-sync.mp3

OpenClaw 会先调用 Whisper Skill 转录，再调用 Summarize Skill（教程 10）生成结构化纪要。

第七步：会议录音实战工作流

完整流程：录音 → 转录 → 纪要 → 保存

1. 录音结束后，把文件路径发给 OpenClaw
2. 指令：把这个会议录音转成会议纪要，保存到 Obsidian 的 /会议记录/ 目录：
   ~/Recordings/2026-03-30-产品会.mp3

OpenClaw 执行步骤：

Whisper Skill 本地转录，生成文字稿
Summarize Skill 提炼会议纪要
通过 Obsidian MCP 保存到指定目录

如果用 Notion 存档，替换最后一步为 Notion MCP 或 API Gateway Skill（教程 25）。

常见问题

OpenClaw Whisper 能识别中文吗？

可以。Whisper medium 和 large 模型对普通话识别准确率超过 90%，是目前开源语音识别中文效果最好的模型之一。建议使用 --model medium 或 --model large，并通过 --language zh 明确指定语言，避免中英混合录音被误判为英文。方言（粤语、闽南语）目前效果有限。

Whisper 本地转文字需要 GPU 吗？

不需要，CPU 也能运行，只是速度较慢。在 Apple Silicon（M1/M2/M3/M4）上，Whisper 会自动使用 Metal GPU 加速，性能接近独显。如果使用 Intel CPU，建议选择 small 或 medium 模型，large 模型在 CPU 上处理 1 小时录音约需 15-30 分钟。安装时可加 pip install openai-whisper torch 来启用 PyTorch 加速。

转录速度怎么样，1 小时录音要多久？

速度因硬件和模型而异：Apple M2 Pro 使用 medium 模型，1 小时录音约 3-5 分钟；Apple M2 Pro 使用 large 模型约 8-12 分钟；普通 Intel i7 CPU 使用 medium 模型约 20-40 分钟。如果配有 NVIDIA GPU，large 模型可在 2-3 分钟内完成 1 小时录音的转录。

输出的字幕文件（SRT）在哪里？

使用 --format srt 参数时，Whisper 默认将 SRT 文件保存在音频文件所在的同一目录，文件名与音频相同（扩展名改为 .srt）。例如 ~/Downloads/会议.mp3 转录后会生成 ~/Downloads/会议.srt。你也可以在指令中要求 AI 把 SRT 文件复制到指定位置。

下一步

教程 24 — 学会写自己的 Skill 并发布到 ClawHub
教程 10 — 配合 Summarize Skill 让转录结果自动生成总结