Tutoriel 23 — OpenClaw Skill Whisper : transcription vocale locale hors ligne, zéro frais API (2026)

Objectif : installer le Skill Whisper pour qu'OpenClaw transcrive les fichiers audio localement hors ligne, avec support du français et de l'anglais, sans dépendre d'aucune API cloud.

Whisper local vs API cloud : comparaison

Avant d'utiliser le déploiement local de Whisper avec openclaw, voici les différences entre les deux approches :

Dimension	Whisper local (ce tutoriel)	API cloud (ex. OpenAI Whisper API)
Coût	Gratuit, sans limite d'appels	~$0.006/minute, ~$0.36 pour 1h
Vie privée	L'audio ne quitte jamais l'appareil	L'audio est téléversé sur des serveurs cloud
Réseau	Pas besoin de connexion	Connexion requise, inutilisable hors ligne
Vitesse	Dépend du matériel local	Généralement 10-30 sec pour 1h d'enregistrement
Reconnaissance française	>90% avec les modèles medium/large	Comparable au modèle large local

Pour les enregistrements de réunions contenant des informations confidentielles ou personnelles, la solution locale est le seul choix sécurisé.

Étape 1 : Installer le CLI Whisper

Le Skill Whisper nécessite l'outil CLI Python openai-whisper. Installez-le d'abord :

pip install openai-whisper

Vérification :

whisper --help
# L'affichage des informations d'utilisation indique que l'installation est réussie

Choisir la taille du modèle (téléchargement automatique à la première exécution) :

Modèle	Taille	Cas d'usage
tiny	75 Mo	Test rapide, précision limitée
base	145 Mo	Usage quotidien en anglais
small	483 Mo	Français et anglais, recommandé pour débuter
medium	1,5 Go	Enregistrements en français, recommandé
large	3 Go	Précision maximale, premier choix pour la transcription en français

Si vous exigez une haute précision en français, utilisez directement le modèle large — après le premier téléchargement, tout fonctionne hors ligne.

Étape 2 : Installer le Skill

Dans WebChat ou Telegram, envoyez :

/install @steipete/openai-whisper

Vérification :

pnpm openclaw skills list
# Le Skill openai-whisper devrait apparaître

Étape 3 : Transcription de base

Après l'installation, envoyez le chemin du fichier audio à l'IA :

Transcris cet enregistrement : ~/Downloads/réunion.mp3

Ou utilisez la commande slash :

/whisper ~/Downloads/réunion.mp3

Le Skill appellera le CLI Whisper local et produira le texte transcrit. Formats audio supportés : mp3, wav, m4a, flac, ogg, webm.

Étape 4 : Spécifier la langue (optimisation française)

Sans indication de langue, Whisper détecte automatiquement, mais les résultats sur les enregistrements mélangés peuvent être instables. Il est recommandé de le préciser :

Transcris cet enregistrement de réunion en français : ~/Recordings/bilan-T1.m4a
Langue : français

Commande équivalente :

whisper ~/Recordings/bilan-T1.m4a --language fr --model medium

Pour les enregistrements mélangant français et anglais (comme les réunions techniques), indiquez --language fr — Whisper privilégiera le français tout en conservant les termes techniques anglais.

Étape 5 : Contrôle du format de sortie

Le Skill Whisper supporte trois formats de sortie :

Texte brut (par défaut) :

/whisper ~/enregistrement.mp3 --format txt

Fichier de sous-titres SRT avec horodatage :

/whisper ~/enregistrement.mp3 --format srt

Exemple de sortie :

1
00:00:01,200 --> 00:00:04,800
Bonjour à tous, commençons par passer en revue les données de ventes du T1.
 
2
00:00:05,100 --> 00:00:09,300
Selon le dernier rapport, la croissance globale est de 23%.

Format JSON (avec horodatage au niveau des mots, adapté pour un traitement ultérieur) :

/whisper ~/enregistrement.mp3 --format json

Étape 6 : Transcription suivie d'un résumé automatique

Flux de travail complet pour la transcription et le résumé automatique d'enregistrements de réunion — une seule instruction :

Transcris cet enregistrement de réunion, puis génère un compte-rendu (avec les décisions prises, la liste d'actions et les responsables) :
~/Recordings/réunion-hebdo.mp3

OpenClaw invoque d'abord le Skill Whisper pour transcrire, puis le Skill Summarize (tutoriel 10) pour générer le compte-rendu structuré.

Étape 7 : Flux de travail pratique pour les enregistrements de réunions

Flux complet : enregistrement → transcription → compte-rendu → sauvegarde

1. À la fin de l'enregistrement, envoyez le chemin du fichier à OpenClaw
2. Instruction : transcris cet enregistrement en compte-rendu et sauvegarde-le dans le répertoire /Réunions/ d'Obsidian :
   ~/Recordings/2026-03-30-réunion-produit.mp3

OpenClaw exécute les étapes :

Le Skill Whisper transcrit localement et génère le brouillon textuel
Le Skill Summarize extrait les points essentiels du compte-rendu
Sauvegarde via Obsidian MCP dans le répertoire spécifié

Pour archiver dans Notion, remplacez la dernière étape par le Skill Notion ou API Gateway (tutoriel 25).

Questions fréquentes

OpenClaw Whisper peut-il reconnaître le français ?

Oui. Les modèles Whisper medium et large ont une précision de reconnaissance du français supérieure à 90% pour le français standard — l'un des modèles de reconnaissance vocale open source avec les meilleures performances en français. Il est recommandé d'utiliser --model medium ou --model large et de spécifier --language fr explicitement pour éviter que les enregistrements mélangés soient incorrectement identifiés comme de l'anglais. Les dialectes régionaux ont une précision plus limitée.

La transcription Whisper nécessite-t-elle un GPU ?

Non, le CPU fonctionne — juste plus lentement. Sur Apple Silicon (M1/M2/M3/M4), Whisper utilise automatiquement l'accélération Metal GPU, avec des performances proches d'une carte graphique dédiée. Avec un CPU Intel, il est conseillé d'utiliser les modèles small ou medium — sur le modèle large, le traitement d'une heure d'enregistrement prend environ 15 à 30 minutes. Ajoutez pip install openai-whisper torch lors de l'installation pour activer l'accélération PyTorch.

Quelle est la vitesse de transcription pour 1 heure d'enregistrement ?

La vitesse varie selon le matériel et le modèle : Apple M2 Pro avec le modèle medium, environ 3-5 minutes pour 1 heure ; Apple M2 Pro avec le modèle large, environ 8-12 minutes ; Intel i7 ordinaire avec le modèle medium, environ 20-40 minutes. Avec un GPU NVIDIA, le modèle large peut transcrire 1 heure d'enregistrement en 2-3 minutes.

Où est sauvegardé le fichier de sous-titres (SRT) ?

Avec le paramètre --format srt, Whisper sauvegarde par défaut le fichier SRT dans le même répertoire que le fichier audio, avec le même nom (extension changée en .srt). Par exemple, ~/Downloads/réunion.mp3 génère ~/Downloads/réunion.srt. Vous pouvez aussi demander à l'IA de copier le fichier SRT vers un emplacement spécifié.

Prochaines étapes

Tutoriel 24 — Apprenez à écrire votre propre Skill et à le publier sur ClawHub
Tutoriel 10 — Combinez le Skill Summarize avec les résultats de transcription pour générer automatiquement des résumés