Čínský AI model GLM-5.1 zvládne pracovat autonomně až osm hodin. Vyzyvatelem světové špičky se stává open-source gigant

Čínská společnost Z.ai aktualizovala svůj vlajkový jazykový model s otevřenými váhami a nová verze GLM-5.1 přepisuje pravidla hry v oblasti agentic AI - umělé inteligence schopné dlouhodobě plnit komplexní úkoly bez průběžného lidského dohledu. Zatímco většina dnešních modelů pracuje v rámci pevně stanoveného tokenového rozpočtu nebo se vzdá, jakmile vyhodnotí, že další uvažování výsledek nezmění, GLM-5.1 dokáže autonomně pracovat na jediném úkolu až osm hodin.

Klíčem je jiný přístup k uvažování. Model prochází smyčkou plánování, provedení, vyhodnocení mezivýsledků a přehodnocení zvolené strategie - a tuto smyčku opakuje stakrát, dokud sám nerozhodne, že úkol je hotov. Pokud uzná, že aktuální přístup nevede k cíli, celou strategii změní.

V interních testech Z.ai modely využívaly tisíce volání nástrojů napříč několika hodinami. Právě tato schopnost rozpoznat slepou uličku a odklonit se od ní je podle expertů tím, co dnešní benchmarky nedokáží spolehlivě zachytit.

Z technického hlediska jde o impozantní stroj. GLM-5.1 je postaven na architektuře mixture-of-experts transformeru s celkovými 754 miliardami parametrů, přičemž aktivních je 40 miliard parametrů na každý token. Kontextové okno pojme až 200 000 vstupních tokenů, výstup dosahuje 128 000 tokenů. Model zvládá uvažování, volání funkcí i strukturovaný výstup. Váhy jsou volně dostupné přes HuggingFace pod licencí MIT - pro komerční i nekomerční použití.

Výsledky v benchmarcích jsou přesvědčivé, zejména v oblasti programování. Na indexu Artificial Analysis Intelligence Index dosáhl GLM-5.1 v režimu uvažování skóre 51 bodů - nejvyšší mezi open-source modely, byť za proprietárními modely Gemini 3.1 Pro Preview a GPT-5.4 (oba 57 bodů) a Claude Opus 4.6 (53 bodů).

Na žebříčku Arena Code, kde se modely utkávají v anonymních soubojích párově hodnocených programátory, se GLM-5.1 umístil třetí s Elo ratingem 1 530, za Claude Opus 4.6 (1 542) a Claude Opus 4.6 v režimu uvažování (1 548). Na reálných softwarových problémech z GitHubu testovaných benchmarkem SWE-Bench Pro GLM-5.1 dokonce vedl se 58,4 procenta - před GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) a Gemini 3.1 Pro (54,2 %).

Slabší místa se projevují v oblasti matematiky a přírodovědného uvažování. Na GPQA Diamond, testu otázek na úrovni postgraduálního studia přírodních věd, GLM-5.1 dosáhl 86,2 procenta, zatímco Gemini 3.1 Pro 94,3 procenta. Na soutěžních matematických úlohách AIME 2026 skončil GLM-5.1 s 95,3 procenta za GPT-5.4 se 98,7 procenta.

Cena za výkon zůstává výrazně nižší než u proprietárních alternativ - 1,40 dolaru za milion vstupních tokenů oproti 5 dolarům u Claude Opus 4.6. Z.ai nicméně ceny oproti předchozí verzi zvýšila: tokeny přibližně o 40 procent a předplatné pro programátory zhruba na dvojnásobek. Mezera se zužuje.

Širší kontext zprávy je zásadní. Podle nezávislé testovací organizace METR se délka úkolů, které AI agenti zvládají autonomně dokončit, zdvojnásobuje přibližně každých sedm měsíců. I nejlepší modely nicméně stále úspěšně dokončí jen zhruba čtvrtinu dlouhodobých programátorských zadání v benchmarcích navržených pro měření vytrvalosti. GLM-5.1 tento strop posouvá — a pokud se jeho schopnost strategického přehodnocování potvrdí v nezávislých testech, půjde o kvalitativní posun, nikoliv jen o přírůstek výkonu.

deeplearning.ai/gnews.cz - GH

Čínský AI model GLM-5.1 zvládne pracovat autonomně až osm hodin. Vyzyvatelem světové špičky se stává open-source gigant

Komentáře

TOP

General News vstoupilo do nové éry: 1,6 milionu zhlédnutí za 24 hodin ukázalo sílu moderního nezávislého zpravodajství

Missiaggia: Nacionalistický šovinismus přivádí polskou povahu ke střetu se všemi

Agrofert plánuje v německém Wittenbergu investice za 120 milionů eur. Jedná o podpoře s vládou Saska-Anhaltska

Afrika, Čína, USA a nová geometrie globální rovnováhy

Denní shrnutí ekonomiky v ČR: Index PX, Škoda Auto, RB Global a Big Iron Auction Company, Cerebras Systems a Nvidie, Ryanair a ropa Brent (20. května 2026)

Putin označil rozhovory mezi Ruskem a Čínou, kterých se zúčastnili klíčoví představitelé, jako velmi důležité.

Čína kritizuje Japonsko: Musí se definitivně odstřihnout od militaristické minulosti

Denní shrnutí ekonomiky v ČR: Agrofert, Thales a VOP CZ, Santander Bank Polska, Colt CZ, Elon Musk, Microsoft, NVIDIA a Cerebras Systems (19. května 2026)

GNEWS Exclusive

General News vstoupilo do nové éry: 1,6 milionu zhlédnutí za 24 hodin ukázalo sílu moderního nezávislého zpravodajství

Putin označil rozhovory mezi Ruskem a Čínou, kterých se zúčastnili klíčoví představitelé, jako velmi důležité.

Babiš zkrotil vzpurného prezidenta Pavla, zatímco opozice se spojila s vůdcem sudetských Němců Posseltem (Petr Holec živě #273)

Odhalení černé magie na Pražském hradě: Zlověstný odvoz českého pokladu z katedrály sv. Víta do Německa v roce 2027! (Honza Betko – Homosignum)

Český bezpečnostní analytik Jan Schneider: Odtajněné britské archivy odhalují, že rozšíření NATO bylo provokací vůči Rusku – Proč elity mlčí!

Shrnutí uplynulého 18. týdne na General News (4. května – 10. května 2026)

Lichtenštejnský miliardový zisk na úkor ČR: Rozhodnutí Evropského soudu pro lidská práva ohrožuje finanční krach České republiky a odkaz Benešových dekretů

General News - Hlavní světové události k 10. květnu 2026