Le modèle d'IA chinois GLM-5.1 peut fonctionner de manière autonome pendant huit heures. Le géant du logiciel libre devient le premier challenger mondial

La société chinoise Z.ai a mis à jour son modèle linguistique phare à poids ouvert, et la nouvelle version GLM-5.1 réécrit les règles du jeu dans le domaine de l'IA agent - l'intelligence artificielle capable d'effectuer des tâches complexes sur de longues périodes sans supervision humaine continue. Alors que la plupart des modèles actuels fonctionnent avec un budget de jetons fixe ou abandonnent lorsqu'ils estiment qu'un raisonnement supplémentaire ne changera pas le résultat, le GLM-5.1 peut travailler de manière autonome sur une seule tâche pendant huit heures.

La clé réside dans une approche différente de la réflexion. Le modèle passe par une boucle de planification, d'exécution, d'évaluation des résultats intermédiaires et de réévaluation de la stratégie choisie - et répète cette boucle des centaines de fois jusqu'à ce qu'il décide que la tâche est terminée. S'il constate que l'approche actuelle ne permet pas d'atteindre l'objectif, il modifie l'ensemble de la stratégie.

Lors de tests internes, les modèles de Z.ai ont utilisé des milliers d'appels d'outils pendant plusieurs heures. C'est cette capacité à reconnaître les impasses et à s'en écarter qui, selon les experts, est ce que les critères de référence actuels ne parviennent pas à capturer de manière fiable.

D'un point de vue technique, il s'agit d'une machine impressionnante. GLM-5.1 est construit sur une architecture de transformateur de mélange d'experts avec un total de 754 milliards de paramètres, avec 40 milliards de paramètres actifs par jeton. La fenêtre contextuelle peut contenir jusqu'à 200 000 jetons d'entrée, et la sortie atteint 128 000 jetons. Le modèle gère le raisonnement, les appels de fonction et les sorties structurées. Les poids sont disponibles gratuitement via HuggingFace sous la licence MIT - pour un usage commercial et non commercial.

Les résultats des benchmarks sont convaincants, en particulier dans le domaine de la programmation. En ce qui concerne l'indice d'intelligence artificielle, GLM-5.1 obtient 51 points en mode raisonnement, soit le score le plus élevé parmi les modèles open-source, bien que derrière les modèles propriétaires Gemini 3.1 Pro Preview et GPT-5.4 (tous deux 57 points) et Claude Opus 4.6 (53 points).

Au classement Arena Code, où les modèles s'affrontent dans des batailles anonymes par paires évaluées par des programmeurs, GLM-5.1 est arrivé en troisième position avec un score Elo de 1 530, derrière Claude Opus 4.6 (1 542) et Claude Opus 4.6 en mode raisonnement (1 548). Sur les problèmes logiciels réels de GitHub testés par le benchmark SWE-Bench Pro, GLM-5.1 est même arrivé en tête avec 58,4 %, devant GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) et Gemini 3.1 Pro (54,2 %).

Les faiblesses sont évidentes en mathématiques et en raisonnement scientifique. Sur le GPQA Diamond, un test de questions scientifiques de niveau supérieur, GLM-5.1 a obtenu un score de 86,2 %, tandis que Gemini 3.1 Pro a obtenu un score de 94,3 %. Pour les problèmes mathématiques du concours AIME 2026, GLM-5.1 a terminé avec 95,3 %, derrière GPT-5.4, qui a obtenu 98,7 %.

Le prix par performance reste significativement plus bas que les alternatives propriétaires - 1,40 $ par million de jetons d'entrée contre 5 $ pour Claude Opus 4.6. Cependant, Z.ai a augmenté ses prix par rapport à la version précédente : les jetons d'environ 40 % et les abonnements des programmeurs d'environ le double. L'écart se réduit.

Le contexte plus large du rapport est crucial. Selon l'organisme de test indépendant METR, la durée des tâches que les agents d'intelligence artificielle peuvent accomplir de manière autonome double environ tous les sept mois. Cependant, même les meilleurs modèles ne parviennent à accomplir qu'un quart environ des tâches de programmation à long terme dans les tests de référence conçus pour mesurer la persistance. GLM-5.1 repousse ce plafond - et si sa capacité de réévaluation stratégique est confirmée par des tests indépendants, il s'agira d'un changement qualitatif, et pas seulement d'un gain de performance.

deeplearning.ai/gnews.cz - GH

Le modèle d'IA chinois GLM-5.1 peut fonctionner de manière autonome pendant huit heures. Le géant du logiciel libre devient le premier challenger mondial

Commentaires

TOP

General News a franchi une nouvelle étape : avec 1,6 million de vues en 24 heures, la plateforme démontre la force du journalisme indépendant moderne.

Missiaggia : Le nationalisme exacerbé met la personnalité polonaise en conflit avec tout et avec tous.

Agrofert prévoit un investissement de 120 millions d'euros à Wittenberg, en Allemagne. Le projet fait l'objet de discussions avec le gouvernement de Saxe-Anhalt.

Afrique, Chine, États-Unis et la nouvelle géométrie de l'équilibre mondial.

Poutine a qualifié les discussions russo-chinoises, auxquelles ont participé des responsables clés, de "substantielles".

Résumé quotidien de l'économie tchèque : Indice PX, Škoda Auto, RB Global et Big Iron Auction Company, Cerebras Systems et Nvidia, Ryanair et pétrole brut Brent (20 mai 2026).

La Chine critique le Japon : il est impératif de rompre définitivement avec le passé militariste.

Résumé quotidien de l'économie tchèque : Agrofert, Thales et VOP CZ, Santander Bank Polska, Colt CZ, Elon Musk, Microsoft, NVIDIA et Cerebras Systems (19 mai 2026).

GNEWS Exclusive

General News a franchi une nouvelle étape : avec 1,6 million de vues en 24 heures, la plateforme démontre la force du journalisme indépendant moderne.

Poutine a qualifié les discussions russo-chinoises, auxquelles ont participé des responsables clés, de "substantielles".

Babiš dompte le président rebelle Paul, tandis que l'opposition s'allie avec le dirigeant allemand des Sudètes Posselt (Petr Holec en direct #273)

Révélation de magie noire au château de Prague : Un sinistre transfert de trésors tchèques de la cathédrale Saint-Vit dans le pays allemand en 2027 ! (Honza Betko – Homosignum)

Jan Schneider, analyste de sécurité tchèque : Les archives britanniques déclassifiées révèlent que l'expansion de l'OTAN a été une provocation envers la Russie – Pourquoi les élites se taisent !

Résumé de la semaine passée sur General News (du 4 mai au 10 mai 2026).

Le Liechtenstein gagne des milliards de dollars au détriment de la République tchèque : l'arrêt de la Cour européenne des droits de l'homme menace la ruine financière de la République tchèque et l'héritage des décrets Benes

Actualités générales - Principaux événements mondiaux pour le 10 mai 2026