チュートリアル 23 — OpenClaw Whisper Skillチュートリアル:ローカルオフライン音声テキスト変換、APIコスト不要(2026)
目標:Whisper Skillをインストールして、OpenClawがローカルで音声ファイルをオフラインで文字起こしできるようにします。日本語と英語をサポートし、クラウドAPIに依存しません。
ローカルWhisper vs クラウドAPIの比較
openclaw whisper ローカルデプロイを使用する前に、2種類の方式の違いを理解しておきましょう:
| 次元 | Whisperローカル(本チュートリアル) | クラウドAPI(OpenAI Whisper APIなど) |
|---|---|---|
| 費用 | 無料、呼び出し制限なし | $0.006/分、1時間で約$0.36 |
| プライバシー | 音声データはデバイスを離れない、完全にプライベート | 音声データがクラウドサーバーにアップロード |
| ネットワーク | ネット接続不要、オフラインでも動作 | 必ずネット接続が必要 |
| 速度 | ローカルハードウェアに依存 | 通常1時間の録音で10〜30秒 |
| 日本語認識 | Whisper medium/largeの日本語精度 >90% | ローカルlargeモデルと同程度 |
会議の録音などビジネス機密や個人のプライバシーが含まれるコンテンツには、ローカル方式が唯一の安全な選択です。
ステップ1:Whisper CLIのインストール
Whisper Skillは openai-whisper のPythonコマンドラインツールに依存しています。まずインストールします:
pip install openai-whisperインストールの確認:
whisper --help
# usage情報が出力されれば正常にインストールされていますモデルサイズの選択(初回実行時に自動ダウンロード):
| モデル | サイズ | 適したシナリオ |
|---|---|---|
| tiny | 75 MB | クイックテスト、精度は限定的 |
| base | 145 MB | 英語の日常使用 |
| small | 483 MB | 英日両方可、入門に推奨 |
| medium | 1.5 GB | 日本語会議録音、推奨 |
| large | 3 GB | 最高精度、日本語音声ファイルの文字起こしに最適 |
日本語認識の精度を重視するなら、直接 large モデルを使用してください。初回ダウンロード後は以後すべてオフラインで動作します。
ステップ2:Skillのインストール
WebChatまたはTelegramで送信します:
/install @steipete/openai-whisper
インストールの確認:
pnpm openclaw skills list
# リストにopenai-whisperが表示されるはずですステップ3:基本的な文字起こし
インストール完了後、音声ファイルのパスをAIに送信します:
この録音を文字起こしてください:~/Downloads/会議.mp3
またはスラッシュコマンドを使います:
/whisper ~/Downloads/会議.mp3
SkillはローカルのWhisper CLIを呼び出してプレーンテキストの文字起こし結果を出力します。サポートされる音声形式:mp3、wav、m4a、flac、ogg、webm。
ステップ4:言語の指定(日本語最適化)
言語を指定しない場合、Whisperは自動検出しますが、日英混合の録音では効果が不安定になることがあります。明示的に指定することをお勧めします:
この会議録音を日本語で文字起こしてください:~/Recordings/Q1-まとめ会.m4a
言語:日本語
底層のコマンドは以下と同等です:
whisper ~/Recordings/Q1-まとめ会.m4a --language ja --model medium日英混合の録音(技術系の会議など)の場合は --language ja を指定することで、Whisperが日本語を優先して認識しつつ英語の専門用語を保持します。
ステップ5:出力形式の制御
Whisper Skillは3種類の出力形式をサポートします:
プレーンテキスト(デフォルト):
/whisper ~/録音.mp3 --format txt
タイムスタンプ付きのSRT字幕ファイル(openclaw でSRT字幕ファイルを出力する標準的な方法):
/whisper ~/録音.mp3 --format srt
出力例:
1
00:00:01,200 --> 00:00:04,800
みなさんこんにちは。今日はQ1の売上データについて議論します。
2
00:00:05,100 --> 00:00:09,300
最新レポートによると、全体で23%増加しています。JSON形式(単語レベルのタイムスタンプを含む、さらなる処理に適している):
/whisper ~/録音.mp3 --format json
ステップ6:文字起こし後に自動要約する
openclaw 会議録音を自動で文字起こして要約する完全なワークフローは、一つの指示だけで実現できます:
この会議録音を文字起こしして、会議メモを生成してください(決定事項、ToDoリスト、担当者を含む):
~/Recordings/weekly-sync.mp3
OpenClawはまずWhisper Skillで文字起こしし、次にSummarize Skill(チュートリアル 10)で構造化された議事録を生成します。
ステップ7:会議録音の実践的なワークフロー
完全なフロー:録音 → 文字起こし → 議事録 → 保存
1. 録音が終わったら、ファイルパスをOpenClawに送信
2. 指示:この会議録音を議事録に変換して、ObsidianのMeetingsディレクトリに保存してください:
~/Recordings/2026-03-30-プロダクト会議.mp3
OpenClawが実行するステップ:
- Whisper Skillがローカルで文字起こしして、テキスト原稿を生成
- Summarize Skillが会議の議事録を提出
- Obsidian MCP経由で指定のディレクトリに保存
Notionにアーカイブする場合は、最後のステップをNotion MCPまたはAPI Gateway Skill(チュートリアル 25)に置き換えてください。
よくある質問
OpenClaw WhisperはJapaneseを認識できますか?
できます。Whisper mediumとlargeモデルは標準語(日本語)の認識精度が90%を超えており、現在利用可能なオープンソース音声認識の中で最高レベルです。--model medium または --model large を使用し、--language ja で明示的に言語を指定することをお勧めします。英日混合の録音が英語と誤判定されないようにするためです。方言(関西弁、広島弁など)の認識精度は現時点では限定的です。
Whisperのローカル文字起こしにGPUは必要ですか?
不要です。CPUでも動作しますが、速度は遅くなります。Apple Silicon(M1/M2/M3/M4)では、WhisperはMetalのGPUアクセラレーションを自動的に使用し、専用GPUに近いパフォーマンスになります。Intel CPUを使用している場合は、smallまたはmediumモデルを選択することをお勧めします。largeモデルをCPUで使用すると、1時間の録音の処理に約15〜30分かかります。インストール時に pip install openai-whisper torch を追加してPyTorchアクセラレーションを有効にすることもできます。
文字起こしの速度はどのくらいですか?1時間の録音にどのくらいかかりますか?
速度はハードウェアとモデルによって異なります:Apple M2 ProでmediumモデルでUnused、1時間の録音は約3〜5分;Apple M2 ProでlargeモデルUsed、約8〜12分;普通のIntel i7 CPUでmediumモデル、約20〜40分。NVIDIA GPUがある場合は、largeモデルで1時間の録音の文字起こしを2〜3分で完成できます。
出力された字幕ファイル(SRT)はどこに保存されますか?
--format srt パラメータを使用した場合、WhisperはデフォルトでSRTファイルを音声ファイルと同じディレクトリに保存します。ファイル名は音声ファイルと同じです(拡張子を .srt に変更)。例えば ~/Downloads/会議.mp3 を文字起こしすると ~/Downloads/会議.srt が生成されます。指示の中でAIにSRTファイルを指定の場所にコピーするよう求めることもできます。
次のステップ
- チュートリアル 24 — 自分のSkillを書いてClawHubに公開する方法を学ぶ
- チュートリアル 10 — Summarize Skillと組み合わせて文字起こし結果を自動的に要約する