Čínská společnost Z.ai aktualizovala svůj vlajkový jazykový model s otevřenými váhami a nová verze GLM-5.1 přepisuje pravidla hry v oblasti agentic AI - umělé inteligence schopné dlouhodobě plnit komplexní úkoly bez průběžného lidského dohledu. Zatímco většina dnešních modelů pracuje v rámci pevně stanoveného tokenového rozpočtu nebo se vzdá, jakmile vyhodnotí, že další uvažování výsledek nezmění, GLM-5.1 dokáže autonomně pracovat na jediném úkolu až osm hodin.
Klíčem je jiný přístup k uvažování. Model prochází smyčkou plánování, provedení, vyhodnocení mezivýsledků a přehodnocení zvolené strategie - a tuto smyčku opakuje stakrát, dokud sám nerozhodne, že úkol je hotov. Pokud uzná, že aktuální přístup nevede k cíli, celou strategii změní.
V interních testech Z.ai modely využívaly tisíce volání nástrojů napříč několika hodinami. Právě tato schopnost rozpoznat slepou uličku a odklonit se od ní je podle expertů tím, co dnešní benchmarky nedokáží spolehlivě zachytit.
Z technického hlediska jde o impozantní stroj. GLM-5.1 je postaven na architektuře mixture-of-experts transformeru s celkovými 754 miliardami parametrů, přičemž aktivních je 40 miliard parametrů na každý token. Kontextové okno pojme až 200 000 vstupních tokenů, výstup dosahuje 128 000 tokenů. Model zvládá uvažování, volání funkcí i strukturovaný výstup. Váhy jsou volně dostupné přes HuggingFace pod licencí MIT - pro komerční i nekomerční použití.
Výsledky v benchmarcích jsou přesvědčivé, zejména v oblasti programování. Na indexu Artificial Analysis Intelligence Index dosáhl GLM-5.1 v režimu uvažování skóre 51 bodů - nejvyšší mezi open-source modely, byť za proprietárními modely Gemini 3.1 Pro Preview a GPT-5.4 (oba 57 bodů) a Claude Opus 4.6 (53 bodů).
Na žebříčku Arena Code, kde se modely utkávají v anonymních soubojích párově hodnocených programátory, se GLM-5.1 umístil třetí s Elo ratingem 1 530, za Claude Opus 4.6 (1 542) a Claude Opus 4.6 v režimu uvažování (1 548). Na reálných softwarových problémech z GitHubu testovaných benchmarkem SWE-Bench Pro GLM-5.1 dokonce vedl se 58,4 procenta - před GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) a Gemini 3.1 Pro (54,2 %).
Slabší místa se projevují v oblasti matematiky a přírodovědného uvažování. Na GPQA Diamond, testu otázek na úrovni postgraduálního studia přírodních věd, GLM-5.1 dosáhl 86,2 procenta, zatímco Gemini 3.1 Pro 94,3 procenta. Na soutěžních matematických úlohách AIME 2026 skončil GLM-5.1 s 95,3 procenta za GPT-5.4 se 98,7 procenta.
Cena za výkon zůstává výrazně nižší než u proprietárních alternativ - 1,40 dolaru za milion vstupních tokenů oproti 5 dolarům u Claude Opus 4.6. Z.ai nicméně ceny oproti předchozí verzi zvýšila: tokeny přibližně o 40 procent a předplatné pro programátory zhruba na dvojnásobek. Mezera se zužuje.
Širší kontext zprávy je zásadní. Podle nezávislé testovací organizace METR se délka úkolů, které AI agenti zvládají autonomně dokončit, zdvojnásobuje přibližně každých sedm měsíců. I nejlepší modely nicméně stále úspěšně dokončí jen zhruba čtvrtinu dlouhodobých programátorských zadání v benchmarcích navržených pro měření vytrvalosti. GLM-5.1 tento strop posouvá — a pokud se jeho schopnost strategického přehodnocování potvrdí v nezávislých testech, půjde o kvalitativní posun, nikoliv jen o přírůstek výkonu.
deeplearning.ai/gnews.cz - GH
Komentáře
Přihlásit se · Registrovat se
Pro komentování se přihlaste nebo zaregistrujte.
…