Tutoriel 23 — OpenClaw Skill Whisper : transcription vocale locale hors ligne, zéro frais API (2026)
Objectif : installer le Skill Whisper pour qu'OpenClaw transcrive les fichiers audio localement hors ligne, avec support du français et de l'anglais, sans dépendre d'aucune API cloud.
Whisper local vs API cloud : comparaison
Avant d'utiliser le déploiement local de Whisper avec openclaw, voici les différences entre les deux approches :
| Dimension | Whisper local (ce tutoriel) | API cloud (ex. OpenAI Whisper API) |
|---|---|---|
| Coût | Gratuit, sans limite d'appels | ~$0.006/minute, ~$0.36 pour 1h |
| Vie privée | L'audio ne quitte jamais l'appareil | L'audio est téléversé sur des serveurs cloud |
| Réseau | Pas besoin de connexion | Connexion requise, inutilisable hors ligne |
| Vitesse | Dépend du matériel local | Généralement 10-30 sec pour 1h d'enregistrement |
| Reconnaissance française | >90% avec les modèles medium/large | Comparable au modèle large local |
Pour les enregistrements de réunions contenant des informations confidentielles ou personnelles, la solution locale est le seul choix sécurisé.
Étape 1 : Installer le CLI Whisper
Le Skill Whisper nécessite l'outil CLI Python openai-whisper. Installez-le d'abord :
pip install openai-whisperVérification :
whisper --help
# L'affichage des informations d'utilisation indique que l'installation est réussieChoisir la taille du modèle (téléchargement automatique à la première exécution) :
| Modèle | Taille | Cas d'usage |
|---|---|---|
| tiny | 75 Mo | Test rapide, précision limitée |
| base | 145 Mo | Usage quotidien en anglais |
| small | 483 Mo | Français et anglais, recommandé pour débuter |
| medium | 1,5 Go | Enregistrements en français, recommandé |
| large | 3 Go | Précision maximale, premier choix pour la transcription en français |
Si vous exigez une haute précision en français, utilisez directement le modèle large — après le premier téléchargement, tout fonctionne hors ligne.
Étape 2 : Installer le Skill
Dans WebChat ou Telegram, envoyez :
/install @steipete/openai-whisper
Vérification :
pnpm openclaw skills list
# Le Skill openai-whisper devrait apparaîtreÉtape 3 : Transcription de base
Après l'installation, envoyez le chemin du fichier audio à l'IA :
Transcris cet enregistrement : ~/Downloads/réunion.mp3
Ou utilisez la commande slash :
/whisper ~/Downloads/réunion.mp3
Le Skill appellera le CLI Whisper local et produira le texte transcrit. Formats audio supportés : mp3, wav, m4a, flac, ogg, webm.
Étape 4 : Spécifier la langue (optimisation française)
Sans indication de langue, Whisper détecte automatiquement, mais les résultats sur les enregistrements mélangés peuvent être instables. Il est recommandé de le préciser :
Transcris cet enregistrement de réunion en français : ~/Recordings/bilan-T1.m4a
Langue : français
Commande équivalente :
whisper ~/Recordings/bilan-T1.m4a --language fr --model mediumPour les enregistrements mélangant français et anglais (comme les réunions techniques), indiquez --language fr — Whisper privilégiera le français tout en conservant les termes techniques anglais.
Étape 5 : Contrôle du format de sortie
Le Skill Whisper supporte trois formats de sortie :
Texte brut (par défaut) :
/whisper ~/enregistrement.mp3 --format txt
Fichier de sous-titres SRT avec horodatage :
/whisper ~/enregistrement.mp3 --format srt
Exemple de sortie :
1
00:00:01,200 --> 00:00:04,800
Bonjour à tous, commençons par passer en revue les données de ventes du T1.
2
00:00:05,100 --> 00:00:09,300
Selon le dernier rapport, la croissance globale est de 23%.Format JSON (avec horodatage au niveau des mots, adapté pour un traitement ultérieur) :
/whisper ~/enregistrement.mp3 --format json
Étape 6 : Transcription suivie d'un résumé automatique
Flux de travail complet pour la transcription et le résumé automatique d'enregistrements de réunion — une seule instruction :
Transcris cet enregistrement de réunion, puis génère un compte-rendu (avec les décisions prises, la liste d'actions et les responsables) :
~/Recordings/réunion-hebdo.mp3
OpenClaw invoque d'abord le Skill Whisper pour transcrire, puis le Skill Summarize (tutoriel 10) pour générer le compte-rendu structuré.
Étape 7 : Flux de travail pratique pour les enregistrements de réunions
Flux complet : enregistrement → transcription → compte-rendu → sauvegarde
1. À la fin de l'enregistrement, envoyez le chemin du fichier à OpenClaw
2. Instruction : transcris cet enregistrement en compte-rendu et sauvegarde-le dans le répertoire /Réunions/ d'Obsidian :
~/Recordings/2026-03-30-réunion-produit.mp3
OpenClaw exécute les étapes :
- Le Skill Whisper transcrit localement et génère le brouillon textuel
- Le Skill Summarize extrait les points essentiels du compte-rendu
- Sauvegarde via Obsidian MCP dans le répertoire spécifié
Pour archiver dans Notion, remplacez la dernière étape par le Skill Notion ou API Gateway (tutoriel 25).
Questions fréquentes
OpenClaw Whisper peut-il reconnaître le français ?
Oui. Les modèles Whisper medium et large ont une précision de reconnaissance du français supérieure à 90% pour le français standard — l'un des modèles de reconnaissance vocale open source avec les meilleures performances en français. Il est recommandé d'utiliser --model medium ou --model large et de spécifier --language fr explicitement pour éviter que les enregistrements mélangés soient incorrectement identifiés comme de l'anglais. Les dialectes régionaux ont une précision plus limitée.
La transcription Whisper nécessite-t-elle un GPU ?
Non, le CPU fonctionne — juste plus lentement. Sur Apple Silicon (M1/M2/M3/M4), Whisper utilise automatiquement l'accélération Metal GPU, avec des performances proches d'une carte graphique dédiée. Avec un CPU Intel, il est conseillé d'utiliser les modèles small ou medium — sur le modèle large, le traitement d'une heure d'enregistrement prend environ 15 à 30 minutes. Ajoutez pip install openai-whisper torch lors de l'installation pour activer l'accélération PyTorch.
Quelle est la vitesse de transcription pour 1 heure d'enregistrement ?
La vitesse varie selon le matériel et le modèle : Apple M2 Pro avec le modèle medium, environ 3-5 minutes pour 1 heure ; Apple M2 Pro avec le modèle large, environ 8-12 minutes ; Intel i7 ordinaire avec le modèle medium, environ 20-40 minutes. Avec un GPU NVIDIA, le modèle large peut transcrire 1 heure d'enregistrement en 2-3 minutes.
Où est sauvegardé le fichier de sous-titres (SRT) ?
Avec le paramètre --format srt, Whisper sauvegarde par défaut le fichier SRT dans le même répertoire que le fichier audio, avec le même nom (extension changée en .srt). Par exemple, ~/Downloads/réunion.mp3 génère ~/Downloads/réunion.srt. Vous pouvez aussi demander à l'IA de copier le fichier SRT vers un emplacement spécifié.
Prochaines étapes
- Tutoriel 24 — Apprenez à écrire votre propre Skill et à le publier sur ClawHub
- Tutoriel 10 — Combinez le Skill Summarize avec les résultats de transcription pour générer automatiquement des résumés