La société chinoise Z.ai a mis à jour son modèle linguistique phare à poids ouvert, et la nouvelle version GLM-5.1 réécrit les règles du jeu dans le domaine de l'IA agent - l'intelligence artificielle capable d'effectuer des tâches complexes sur de longues périodes sans supervision humaine continue. Alors que la plupart des modèles actuels fonctionnent avec un budget de jetons fixe ou abandonnent lorsqu'ils estiment qu'un raisonnement supplémentaire ne changera pas le résultat, le GLM-5.1 peut travailler de manière autonome sur une seule tâche pendant huit heures.

La clé réside dans une approche différente de la réflexion. Le modèle passe par une boucle de planification, d'exécution, d'évaluation des résultats intermédiaires et de réévaluation de la stratégie choisie - et répète cette boucle des centaines de fois jusqu'à ce qu'il décide que la tâche est terminée. S'il constate que l'approche actuelle ne permet pas d'atteindre l'objectif, il modifie l'ensemble de la stratégie.

Lors de tests internes, les modèles de Z.ai ont utilisé des milliers d'appels d'outils pendant plusieurs heures. C'est cette capacité à reconnaître les impasses et à s'en écarter qui, selon les experts, est ce que les critères de référence actuels ne parviennent pas à capturer de manière fiable.

D'un point de vue technique, il s'agit d'une machine impressionnante. GLM-5.1 est construit sur une architecture de transformateur de mélange d'experts avec un total de 754 milliards de paramètres, avec 40 milliards de paramètres actifs par jeton. La fenêtre contextuelle peut contenir jusqu'à 200 000 jetons d'entrée, et la sortie atteint 128 000 jetons. Le modèle gère le raisonnement, les appels de fonction et les sorties structurées. Les poids sont disponibles gratuitement via HuggingFace sous la licence MIT - pour un usage commercial et non commercial.

Les résultats des benchmarks sont convaincants, en particulier dans le domaine de la programmation. En ce qui concerne l'indice d'intelligence artificielle, GLM-5.1 obtient 51 points en mode raisonnement, soit le score le plus élevé parmi les modèles open-source, bien que derrière les modèles propriétaires Gemini 3.1 Pro Preview et GPT-5.4 (tous deux 57 points) et Claude Opus 4.6 (53 points).

Au classement Arena Code, où les modèles s'affrontent dans des batailles anonymes par paires évaluées par des programmeurs, GLM-5.1 est arrivé en troisième position avec un score Elo de 1 530, derrière Claude Opus 4.6 (1 542) et Claude Opus 4.6 en mode raisonnement (1 548). Sur les problèmes logiciels réels de GitHub testés par le benchmark SWE-Bench Pro, GLM-5.1 est même arrivé en tête avec 58,4 %, devant GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) et Gemini 3.1 Pro (54,2 %).

Les faiblesses sont évidentes en mathématiques et en raisonnement scientifique. Sur le GPQA Diamond, un test de questions scientifiques de niveau supérieur, GLM-5.1 a obtenu un score de 86,2 %, tandis que Gemini 3.1 Pro a obtenu un score de 94,3 %. Pour les problèmes mathématiques du concours AIME 2026, GLM-5.1 a terminé avec 95,3 %, derrière GPT-5.4, qui a obtenu 98,7 %.

Le prix par performance reste significativement plus bas que les alternatives propriétaires - 1,40 $ par million de jetons d'entrée contre 5 $ pour Claude Opus 4.6. Cependant, Z.ai a augmenté ses prix par rapport à la version précédente : les jetons d'environ 40 % et les abonnements des programmeurs d'environ le double. L'écart se réduit.

Le contexte plus large du rapport est crucial. Selon l'organisme de test indépendant METR, la durée des tâches que les agents d'intelligence artificielle peuvent accomplir de manière autonome double environ tous les sept mois. Cependant, même les meilleurs modèles ne parviennent à accomplir qu'un quart environ des tâches de programmation à long terme dans les tests de référence conçus pour mesurer la persistance. GLM-5.1 repousse ce plafond - et si sa capacité de réévaluation stratégique est confirmée par des tests indépendants, il s'agira d'un changement qualitatif, et pas seulement d'un gain de performance.

deeplearning.ai/gnews.cz - GH