Tutoriel 19 — OpenClaw Nano Banana Pro : génération et édition d'images par conversation IA (propulsé par Gemini, 2026)
Objectif : installer le Skill Nano Banana Pro pour qu'OpenClaw génère des images à partir de texte et édite des images existantes en langage naturel, avec support des résolutions 1K/2K/4K.
Qu'est-ce que Nano Banana Pro ?
Nano Banana Pro est l'un des Skills d'image les plus téléchargés de ClawHub (72k téléchargements). Propulsé par le modèle d'image Google Gemini, il supporte les deux modes text-to-image (texte vers image) et image-to-image (édition d'image). Pas besoin de s'inscrire séparément sur Midjourney ou DALL-E — tout se fait via l'interface de conversation d'OpenClaw.
Étape 1 : Installer le CLI requis
Nano Banana Pro nécessite le CLI nano-banana-pro. Dans le terminal :
npm install -g nano-banana-proVérification :
nano-banana-pro --version
# Devrait afficher le numéro de version, ex. 2.4.1En cas d'erreur de permission, ajoutez sudo ou utilisez pnpm global :
pnpm add -g nano-banana-proÉtape 2 : Installer le Skill
Dans WebChat ou Telegram, envoyez :
/install @steipete/nano-banana-pro
Vérification :
pnpm openclaw skills list
# Le Skill nano-banana-pro devrait apparaîtreAprès l'installation, OpenClaw détecte automatiquement les intentions de génération d'image — aucune configuration de clé API supplémentaire n'est nécessaire (utilise le quota Gemini déjà lié à OpenClaw).
Étape 3 : Génération d'image de base (text-to-image)
Décrivez simplement l'image souhaitée en langage naturel :
Génère une image : rue de Tokyo cyberpunk, néons reflétés sur le sol mouillé après la pluie, atmosphère nocturne
Ou utilisez la commande slash :
/image un chat roux assis sur un nuage, style animation Miyazaki, couleurs douces
Autres exemples de prompts :
/image logo de marque de café minimaliste, noir et blanc, sans fond, prêt pour usage commercial
/image visuel produit tech futuriste 2026 : casque audio intelligent en lévitation, arrière-plan avec halo dégradé violet-bleu
Sortie : l'IA affiche l'image générée directement dans la conversation, avec un lien de téléchargement et le temps de génération.
Étape 4 : Édition d'image (image-to-image)
Pour modifier une image existante, passez l'image originale avec --input-image :
Modifie cette image en changeant le fond en blanc, en gardant le sujet intact : --input-image ~/Desktop/produit.jpg
Ou décrivez directement votre intention d'édition :
Change le style de cette photo en peinture aquarelle : ~/Downloads/photo.png
Enlève le texte de cette image et remplis naturellement l'arrière-plan
Ajoute un badge "NOUVEAU" sur ce visuel produit, fond rouge texte blanc, dans le coin supérieur droit
Éditer des images avec des instructions en langage naturel — sans ouvrir Photoshop ou Figma.
Étape 5 : Contrôle de la résolution (1K/2K/4K)
Contrôlez la taille de sortie avec le paramètre --resolution :
# 1K (1024×1024) — aperçu rapide, idéal pour tester les prototypes, consomme le moins de quota
/image --resolution 1k paysage urbain nocturne vue de dessus
# 2K (2048×2048) — équilibre pour un usage quotidien, adapté aux réseaux sociaux
/image --resolution 2k visuel publicitaire produit, fond épuré
# 4K (4096×4096) — qualité impression haute résolution, affiches et couvertures, consomme davantage de quota
/image --resolution 4k visuel principal d'exposition, paysage de montagne et eau dans un style graphique imposant| Résolution | Cas d'usage | Temps de génération | Consommation de quota |
|---|---|---|---|
| 1K | Tests rapides, avatars | ~5 sec | 1× |
| 2K | Réseaux sociaux, sites web | ~15 sec | 3× |
| 4K | Impression, expositions | ~45 sec | 8× |
Conseil : commencez par 1K pour valider le prompt, puis passez en 4K une fois satisfait de la composition.
Étape 6 : Techniques de prompt pratiques
Contrôle du style : ajoutez des mots-clés de style à la fin du prompt
Intérieur d'une bibliothèque moderne, lumière naturelle abondante, tons chauds — style photographique, objectif 85mm, faible profondeur de champ
Description détaillée : décrivez par couches, du premier plan à l'arrière-plan
Premier plan : une tasse de café latte fumante
Plan moyen : surface en bois, ordinateur portable entrouvert
Arrière-plan : vue urbaine enneigée à travers une baie vitrée, floutée
Style global : esthétique Instagram, haute saturation, lumière naturelle
Prompt négatif (exclure les éléments indésirables) :
/image capture d'écran d'une interface App moderne, UI épuré --negative texte flou, basse résolution, distorsion
Étape 7 : Générer plusieurs variantes pour comparer
Générez plusieurs versions pour choisir :
Génère-moi 4 versions de proposition de logo de marque sur le thème "IA + océan", avec des styles différents
Ou spécifiez le nombre :
/image --count 4 --resolution 1k icône tech minimaliste, fond circulaire, différentes palettes de couleurs
Pour les résultats par lot, vous pouvez ensuite affiner la version préférée avec une édition image-to-image.
Questions fréquentes
OpenClaw peut-il générer des images gratuitement ?
OpenClaw est un framework open source auto-hébergé. Le Skill Nano Banana Pro appelle l'interface du modèle d'image Gemini. Avec le quota gratuit de Google AI Studio, la génération d'images 1K/2K est gratuite dans la limite du quota. Au-delà, la facturation suit les tarifs standard de l'API Gemini — généralement beaucoup moins coûteux qu'un abonnement Midjourney. Il est conseillé de définir une limite mensuelle de consommation dans le fichier de configuration d'OpenClaw pour éviter les dépassements imprévus.
Quelle est la différence entre Nano Banana Pro et Midjourney ?
L'avantage principal de Nano Banana Pro est l'intégration dans le flux de conversation d'OpenClaw — vous pouvez réaliser un flux de travail complet « recherche de référence → génération → édition → sauvegarde dans Notion » dans la même conversation, sans passer d'un outil à l'autre. Midjourney a actuellement un léger avantage en qualité d'image et styles artistiques, mais nécessite Discord et ne supporte pas les appels programmatiques. Si votre principal besoin est la génération par lot, les flux automatisés ou l'édition d'image, Nano Banana Pro est plus adapté.
Les images générées sont-elles protégées par le droit d'auteur ?
Selon les conditions d'utilisation de Google Gemini, les images générées via l'API appartiennent à l'utilisateur et peuvent être utilisées commercialement. Cependant, la génération de visages réels de personnes identifiables, de marques connues ou de styles artistiques protégés (comme « style Miyazaki ») est dans une zone grise légale — consultez un juriste avant tout usage commercial. Les images générées ne peuvent pas servir à des contenus illégaux — l'API Gemini intègre un filtre de sécurité qui rejette automatiquement les requêtes non conformes.
Quels types d'éditions image-to-image sont possibles ?
L'édition image-to-image supporte : remplacement de fond (suppression/changement de fond), transfert de style (photo en peinture/aquarelle/manga), modification locale (décrire en langage naturel la zone à modifier), restauration d'image (suppression de filigranes, remplissage de zones manquantes), ajustement des couleurs (modification des couleurs d'une zone spécifique). Pour les éditions locales précises, décrivez clairement « quelle zone » faire « quel changement » — le modèle préservera au maximum les zones non décrites.
Prochaines étapes
- Tutoriel 20 — Installez le Skill Obsidian pour sauvegarder automatiquement les images générées et le processus créatif dans vos notes Obsidian
- Tutoriel 11 — Utilisez Skill Vetter pour faire une vérification de sécurité avant d'installer un Skill