Vous avez basculé sur Claude Opus 4.7 il y a trois semaines. Hier, GPT-5.5 est passé en GA. Demain, Google ouvre I/O. Vendredi, Mistral teasera une nouvelle famille. Vous gardez en mémoire les benchmarks du mois dernier, déjà périmés, et la question revient, sourde mais persistante : faut-il tester ?
La cadence est devenue mensuelle
Depuis douze mois, un nouveau modèle phare sort presque chaque mois. GPT-5.5 chez OpenAI, Claude Opus 4.7 chez Anthropic, Gemini 2.5 Pro puis 3 chez Google, Llama 4 chez Meta, DeepSeek V3 en open source. Les cycles de sortie se sont alignés sur le rythme des keynote produits, pas sur celui des cycles de recherche.
Cette cadence a deux conséquences immédiates.
- Les comparatifs deviennent obsolètes en six semaines. Le top du classement Artificial Analysis change avant que vous ayez fini de migrer.
- Il n’y a plus de meilleur modèle universel. Il y a un meilleur modèle pour le code, un autre pour les longs contextes, un autre pour le raisonnement, un autre pour le coût. Les forces se sont différenciées, mais aussi diluées.
La fatigue est réelle
Cette fatigue n’est pas un défaut de caractère. C’est un coût cognitif structuré.
Tester un modèle sérieusement demande du temps. Préparer des cas réels, comparer sur ses propres données, ajuster les prompts qui marchaient sur l’ancien. Trois jours d’attention minimum pour une évaluation honnête. Multiplié par six sorties majeures, vous y passez votre trimestre.
S’ajoute une seconde dépense, plus insidieuse : la veille. Suivre les blogs, les threads, les benchmarks, les retours d’usage. Une heure par jour pour rester à peu près à jour. Et le sentiment, toujours, que vous êtes en retard.
Choisir un modèle en 2026 n’engage plus que six semaines. C’est aussi la durée pendant laquelle vous regretterez votre choix.
Le piège, c’est de croire que cette agitation est un travail. La veille n’est pas un actif tangible. Tester n’est pas livrer. La compétence de cette époque consiste à arbitrer ce qu’on regarde, pas à tout regarder.
L’opportunité est dans la couche au-dessus
Ce qui change vite, ce sont les modèles. Ce qui change peu, ce sont les compétences qui les entourent.
Quelques exemples concrets de ce qui résiste au changement de modèle :
- Un workflow propre, où le modèle est un composant interchangeable et non le cœur du système.
- Un prompt système maturé sur six mois d’usage réel, qui marche presque aussi bien sur trois modèles différents.
- Une organisation où chacun sait dans quel cas appeler quel agent, sans avoir à comparer à chaque tâche.
- Une discipline de relecture critique, qui ne dépend pas de la fiabilité du modèle.
Ces actifs tangibles ne se déprécient pas en six semaines. Ils gagnent en valeur à chaque nouveau modèle, parce que chaque montée en gamme les amplifie sans les invalider.
À l’inverse, ce qui se déprécie vite : la maîtrise fine d’une interface spécifique, les optimisations bricolées pour contourner une limite qui n’existera plus le mois suivant, les benchmarks personnels accumulés sans méthode.
- Le modèle phare change tous les mois. L'instabilité est structurelle, pas conjoncturelle.
- Tester chaque sortie sérieusement coûte un trimestre par an. Personne ne peut le tenir.
- Investir dans la couche au-dessus du modèle : workflows, prompts système, organisation, discipline de relecture.
- Ce qui résiste à six modèles successifs vaut plus que ce qui domine un classement pendant six semaines.
La tension de 2026 n’est pas de choisir le bon modèle. C’est d’accepter qu’il n’y en aura pas, jamais plus, et que la valeur s’est déplacée d’un cran. Vous n’avez pas besoin de tester GPT-5.5 cette semaine. Vous avez besoin que vos workflows résistent à GPT-5.6 le mois prochain.