Tutoriel 07 — L'assistant de reconnaissance d'images instantanée
Prenez une photo avec votre téléphone, envoyez-la au bot Telegram, et l'IA vous l'explique. Menu en langue étrangère, formule mathématique, capture d'écran de code, panneau de signalisation — une photo suffit.
Ce que ça fait
Vous prenez une photo avec votre téléphone
↓
Vous l'envoyez au bot Telegram
↓
OpenClaw reçoit l'image
MiniMax VL-01 (modèle de vision) analyse l'image
↓
Vous dit en français ce qu'il y a dans l'image
Pas besoin d'ouvrir un navigateur, pas de téléversement manuel — envoyez simplement une photo.
Cas d'usage concrets
| Situation | Ce que vous envoyez | Ce que l'IA répond |
|---|---|---|
| Voyage à l'étranger | Photo d'un menu japonais | Nom et description de chaque plat en français |
| Lecture d'article | Capture d'une formule mathématique | Signification et explication de la dérivation |
| Débogage | Capture d'un message d'erreur | Cause de l'erreur et solutions |
| Courses | Photo d'une liste d'ingrédients | Analyse des ingrédients clés, allergènes potentiels |
| Document | Page d'un contrat | Explication en langage clair de la clause |
| Nature | Photo d'une plante | Nom, caractéristiques, toxicité éventuelle |
Prérequis
- Avoir complété le tutoriel 01 (passerelle démarrée)
- Avoir complété le tutoriel 02 (Telegram connecté)
- MiniMax VL-01 configuré dans
openclaw.json(supporte les images en entrée)
Étape 1 : Confirmer la configuration du modèle de vision
Ajoutez VL-01 dans la section minimax.models de ~/.openclaw/openclaw.json :
{
"id": "MiniMax-VL-01",
"name": "MiniMax VL-01",
"reasoning": false,
"input": ["text", "image"],
"cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
"contextWindow": 200000,
"maxTokens": 8192
}Vérification :
pnpm openclaw models list --all | grep VL
# Vous devriez voir : minimax/MiniMax-VL-01 text+image yesÉtape 2 : Créer le Skill de reconnaissance d'image
Créez ~/.openclaw/workspace/skills/reconnaître-image/SKILL.md :
mkdir -p ~/.openclaw/workspace/skills/reconnaître-image# Assistant de reconnaissance d'image
L'utilisateur vous envoie une image. Vous devez :
1. **Observer attentivement** tous les détails de l'image
2. **Identifier le type de contenu** : texte/formule/code/objet réel/capture d'écran/autre ?
3. Fournir la réponse la plus utile selon le type :
### Texte/menu/panneau/document
- Transcrire intégralement tout le texte
- Traduire en français si c'est dans une langue étrangère
- Expliquer le contenu en langage naturel
### Code/capture d'écran/erreur
- Identifier le langage de programmation et le framework
- Expliquer ce que fait ce code / en quoi consiste l'erreur
- Proposer des améliorations ou des corrections
### Formule/graphique
- Expliquer en mots le sens de la formule
- Préciser ce que représentent les variables
- Si c'est un graphique, analyser les tendances des données
### Objet réel/plante/nourriture
- Identifier de quoi il s'agit
- Donner des informations de contexte pertinentes (origine, utilisation, précautions)
## Ton
Direct et concis — commencez par la conclusion essentielle, puis développez les détails.
Répondez entièrement en français.Étape 3 : C'est tout, utilisez directement
Ouvrez Telegram, envoyez une image à votre bot, en même temps ou juste après posez votre question :
Exemple 1 : Menu japonais
[Envoi d'une photo de menu japonais]
Comment choisir ? Y a-t-il quelque chose de pas trop épicé ?
Exemple 2 : Erreur de code
[Capture d'écran d'une erreur dans le terminal]
Qu'est-ce que cette erreur signifie, comment la corriger ?
Exemple 3 : Photo sans commentaire
Envoyez juste l'image sans texte — l'IA juge automatiquement ce que vous cherchez probablement à savoir.
Avancé : Kit de voyage
Créez un Skill dédié aux voyages ~/.openclaw/workspace/skills/assistant-voyage/SKILL.md :
# Assistant de voyage avec reconnaissance d'image
Vous êtes un guide de voyage expérimenté. L'utilisateur vous envoie des photos prises en voyage.
## Menus
- Identifiez chaque plat, ingrédients et saveurs en français
- Indiquez le prix (conversion approximative en euros)
- Recommandez 2-3 plats adaptés aux touristes français
## Transport (métro, panneaux, horaires)
- Indiquez la position ou la direction actuelle
- Donnez le conseil pratique le plus simple
## Sites touristiques
- Identifiez l'endroit
- Brève présentation historique (2-3 phrases)
- Conseils de visite
## Shopping (étiquettes de prix, liste d'ingrédients)
- Conversion du prix en euros
- Présence d'allergènes courants dans les ingrédients
- Vaut-il la peine d'acheter ? (comparaison avec les prix locaux)
Réponses en français, concises et pratiques.Comment ça fonctionne
Quand OpenClaw reçoit un message image via Telegram :
- L'image est convertie en base64
- Elle est envoyée avec votre question textuelle à MiniMax VL-01
- VL-01 comprend simultanément l'image et le texte
- La réponse vous est renvoyée via Telegram
L'ensemble du processus prend généralement 3 à 8 secondes.
Astuces
Envoyer plusieurs images à la fois : Telegram permet d'envoyer une galerie — l'IA analysera toutes les images simultanément
Questions de suivi : l'IA garde le contexte en mémoire, vous pouvez continuer après l'image :
[Envoi du menu]
Comment prépare-t-on ce plat ?
→ Est-ce que le deuxième plat contient des cacahuètes ? Je suis allergique
→ Que me recommandez-vous à la place ?
Spécifier la langue : si vous préférez une réponse en anglais, dites-le simplement :
[Envoi de l'image] answer in English
Questions fréquentes
Quels formats d'image sont pris en charge ?
JPEG, PNG, WebP, GIF (première image seulement) et les principaux formats sont supportés. Les photos envoyées via Telegram sont automatiquement compressées en JPEG ; les captures d'écran sont généralement en PNG — les deux sont entièrement pris en charge.
Quelle est la précision de la reconnaissance ?
MiniMax VL-01 obtient de bons résultats en reconnaissance de texte (OCR), compréhension de scènes et identification de code. Sur des photos nettes, la précision est élevée. La qualité diminue avec des images floues, sous-exposées ou avec des caractères très petits. Pour de meilleurs résultats, photographiez avec stabilité et un bon éclairage.
Peut-on analyser les captures d'erreurs de code ?
Oui, c'est l'un des cas d'usage les plus pratiques. Envoyez une capture de terminal — l'IA identifie l'erreur, localise le problème et propose des corrections. La plupart des langages de programmation populaires sont reconnus.
Y a-t-il une limite de taille d'image ?
En mode photo, Telegram accepte jusqu'à environ 10 Mo. OpenClaw ajuste automatiquement les dimensions à la réception. Les images à très haute résolution (au-delà de 4000 px) peuvent être compressées au préalable pour économiser des tokens.
Que se passe-t-il si on envoie une image sans avoir activé le Skill de reconnaissance ?
La reconnaissance fonctionne quand même. Sans Skill spécifique activé, l'IA utilise ses capacités générales, mais la sortie sera moins structurée qu'avec le Skill dédié. Il est recommandé de créer le Skill /reconnaître-image selon ce tutoriel pour un format de réponse plus cohérent.
Pourquoi c'est intéressant
Ce tutoriel illustre comment OpenClaw relie un canal de messagerie (Telegram), une IA de vision (MiniMax VL-01) et le système de Skills (SKILL.md).
Avant, pour analyser une image, il fallait ouvrir ChatGPT, téléverser l'image, attendre. Maintenant, envoyez juste une image dans Telegram et l'IA s'en occupe automatiquement — aussi naturel qu'envoyer un message à un assistant humain.
C'est ce principe — « intégrer l'IA dans les outils que vous utilisez déjà au quotidien » — qui est au cœur de la philosophie de conception d'OpenClaw.