Tutoriel 05 — Multi-modèles et basculement automatique : tirer le meilleur parti de l'IA à moindre coût

Objectif : configurer plusieurs fournisseurs de modèles, mettre en place un basculement automatique, utiliser des modèles économiques au quotidien et passer automatiquement à des modèles plus puissants pour les tâches complexes.

Pourquoi utiliser plusieurs modèles ?

Cas d'usage	Modèle recommandé
Questions quotidiennes, traduction	MiniMax M2.1 (économique)
Raisonnement complexe, architecture de code	Claude Opus ou MiniMax M2.5 (puissant mais coûteux)
Modèle principal en panne / limité	Basculement automatique vers le modèle de secours (sans interruption)

Scénario 1 : MiniMax principal + Claude en secours

Éditez ~/.openclaw/openclaw.json :

{
  "gateway": { "mode": "local" },
  "env": {
    "MINIMAX_API_KEY": "${MINIMAX_API_KEY}",
    "ANTHROPIC_API_KEY": "${ANTHROPIC_API_KEY}"
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "minimax/MiniMax-M2.1",
        "fallbacks": ["anthropic/claude-sonnet-4-6"]
      }
    }
  },
  "models": {
    "mode": "merge",
    "providers": {
      "minimax": {
        "baseUrl": "https://api.minimax.io/anthropic",
        "apiKey": "${MINIMAX_API_KEY}",
        "api": "anthropic-messages",
        "models": [
          {
            "id": "MiniMax-M2.1",
            "name": "MiniMax M2.1",
            "reasoning": false,
            "input": ["text"],
            "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
            "contextWindow": 200000,
            "maxTokens": 8192
          }
        ]
      }
    }
  }
}

Si MiniMax renvoie une erreur ou est en timeout, le système bascule automatiquement sur Claude Sonnet — l'utilisateur ne voit rien.

Scénario 2 : Changer de modèle selon la tâche

Basculez manuellement en ligne de commande :

# Passer au modèle de raisonnement pour les tâches complexes
pnpm openclaw models set minimax/MiniMax-M2.5
 
# Revenir ensuite au modèle économique
pnpm openclaw models set minimax/MiniMax-M2.1

Ou via une commande slash en conversation (si le Skill de changement de modèle est activé) :

/modèle M2.5
Conçois l'architecture d'un système de cache distribué

Scénario 3 : Claude Opus principal + MiniMax en secours (mode économique)

{
  "agents": {
    "defaults": {
      "models": {
        "anthropic/claude-opus-4-6": { "alias": "opus" },
        "minimax/MiniMax-M2.1": { "alias": "minimax" }
      },
      "model": {
        "primary": "anthropic/claude-opus-4-6",
        "fallbacks": ["minimax/MiniMax-M2.1"]
      }
    }
  }
}

Scénario 4 : Configuration multi-modèles complète (triple filet de sécurité)

{
  "env": {
    "MINIMAX_API_KEY": "${MINIMAX_API_KEY}",
    "ANTHROPIC_API_KEY": "${ANTHROPIC_API_KEY}",
    "OPENAI_API_KEY": "${OPENAI_API_KEY}"
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "minimax/MiniMax-M2.1",
        "fallbacks": [
          "anthropic/claude-sonnet-4-6",
          "openai/gpt-4o"
        ]
      }
    }
  }
}

Si l'un tombe en panne, le suivant prend automatiquement le relais — aucune interruption.

Voir le modèle actuellement utilisé

Dans la conversation, envoyez :

/status

Réponse type :

Modèle : minimax/MiniMax-M2.1
Contexte : 4 821 / 200 000 tokens
Session : main

Consulter la consommation de tokens et les coûts

/usage

Affiche la consommation de tokens et le coût estimé de la session en cours, pour maîtriser les dépenses.

Niveaux de réflexion (Thinking Level)

MiniMax M2.5 et Claude Opus supportent le mode « réflexion approfondie », qui consomme plus de tokens mais produit des réponses plus précises :

/think high
Analyse la complexité temporelle de ce code et propose des optimisations :
[coller le code]

Niveaux disponibles : off / minimal / low / medium / high / xhigh

Utilisez off pour les questions quotidiennes et high pour les tâches complexes.

Recommandations par type de tâche

Type de tâche	Modèle recommandé	Niveau de réflexion
Questions quotidiennes	MiniMax M2.1	off
Génération de code	MiniMax M2.1 Lightning	low
Revue de code	MiniMax M2.5	medium
Conception système	MiniMax M2.5 / Claude Opus	high
Raisonnement mathématique	MiniMax M2.5	xhigh

Questions fréquentes

Dans quels cas le basculement (fallback) se déclenche-t-il ?

Le basculement se déclenche automatiquement quand le modèle principal renvoie : une erreur HTTP 5xx, un timeout, une limitation de débit (429) ou une indisponibilité de service. OpenClaw essaie les modèles du tableau fallbacks dans l'ordre, de façon totalement transparente pour l'utilisateur.

Comment savoir quel modèle est réellement utilisé ?

Envoyez /status dans la conversation — la réponse affiche l'ID complet du modèle actif (ex. minimax/MiniMax-M2.1). En cas de basculement, les logs en gardent trace : tail -f /tmp/openclaw/openclaw-$(date +%Y-%m-%d).log | grep fallback.

Comment sont calculés les coûts des tokens pour chaque modèle ?

Les coûts sont calculés selon les tarifs officiels de chaque fournisseur, configurés dans le champ models[].cost de openclaw.json (unité : centimes par million de tokens). Lancez /usage pour voir la consommation et le coût estimé de la session.

Peut-on forcer manuellement un changement de modèle en pleine conversation ?

Oui, avec pnpm openclaw models set <ID-du-modèle> — le changement est instantané, sans redémarrage. Ou configurez un Skill « changement de modèle » (SKILL.md) pour que l'IA comprenne des instructions en langage naturel comme « passe sur M2.5 ».

Faut-il configurer les clés API de tous les fournisseurs ?

Non, uniquement ceux que vous utilisez réellement. Si vous utilisez MiniMax en principal et Claude en secours, vous n'avez besoin que de ces deux clés. Les fournisseurs non configurés ne sont jamais appelés et ne génèrent pas d'erreur.

Prochaines étapes

Tutoriel 01 — Revoir la configuration de base
Tutoriel 03 — Écrire un Skill « sélection de modèle » pour laisser l'IA choisir elle-même