Китайская модель ИИ GLM-5.1 может работать в автономном режиме до восьми часов. Гигант с открытым исходным кодом становится главным претендентом в мире

Китайская компания Z.ai обновила свою флагманскую языковую модель с открытым весом, и новая версия GLM-5.1 переписывает правила игры в области агентного ИИ - искусственного интеллекта, способного выполнять сложные задачи в течение длительного времени без постоянного контроля со стороны человека. В то время как большинство современных моделей работают в рамках фиксированного бюджета жетонов или сдаются, как только понимают, что дальнейшие рассуждения не изменят результат, GLM-5.1 может автономно работать над одной задачей до восьми часов.

Ключ - в ином подходе к мышлению. Модель проходит через цикл планирования, выполнения, оценки промежуточных результатов и переоценки выбранной стратегии - и повторяет этот цикл сотни раз, пока не решит, что задача выполнена. Если она понимает, что текущий подход не ведет к цели, то меняет всю стратегию.

В ходе внутренних тестов модели Z.ai использовали тысячи звонков в течение нескольких часов. Именно эта способность распознавать тупиковые ситуации и отклоняться от них, по мнению экспертов, является тем, что современные бенчмарки не могут надежно зафиксировать.

С технической точки зрения это впечатляющая машина. GLM-5.1 построен на архитектуре трансформатора "смесь экспертов" с общим числом параметров 754 миллиарда, причем на один токен приходится 40 миллиардов активных параметров. Контекстное окно может вмещать до 200 000 входных лексем, а выходное достигает 128 000 лексем. Модель обрабатывает рассуждения, вызовы функций и структурированный вывод. Веса свободно доступны через HuggingFace по лицензии MIT - для коммерческого и некоммерческого использования.

Результаты в бенчмарках убедительны, особенно в области программирования. По индексу искусственного интеллекта GLM-5.1 набирает 51 балл в режиме рассуждений - самый высокий показатель среди моделей с открытым исходным кодом, хотя и уступает проприетарным моделям Gemini 3.1 Pro Preview и GPT-5.4 (обе - 57 баллов) и Claude Opus 4.6 (53 балла).

В таблице лидеров Arena Code, где модели соревнуются в анонимных парных боях, оцениваемых программистами, GLM-5.1 занял третье место с рейтингом Эло 1 530, уступив Claude Opus 4.6 (1 542) и Claude Opus 4.6 в режиме рассуждения (1 548). На реальных программных задачах с GitHub, протестированных бенчмарком SWE-Bench Pro, GLM-5.1 даже лидировал с результатом 58,4 %, опередив GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) и Gemini 3.1 Pro (54,2 %).

Слабые места проявляются в математике и научном мышлении. В GPQA Diamond, тесте научных вопросов для выпускников, GLM-5.1 набрал 86,2 %, а Gemini 3.1 Pro - 94,3 %. В конкурсном тесте AIME 2026 по математике GLM-5.1 набрал 95,3 %, а GPT-5.4 - 98,7 %.

Цена за производительность остается значительно ниже, чем у проприетарных альтернатив - $1,40 за миллион входных токенов против $5 у Claude Opus 4.6. Однако Z.ai повысила цены по сравнению с предыдущей версией: токены - примерно на 40 процентов, а подписка для программистов - примерно вдвое. Разрыв сокращается.

Более широкий контекст отчета имеет огромное значение. По данным независимой организации METR, объем задач, которые ИИ-агенты могут решать автономно, удваивается примерно каждые семь месяцев. Однако даже самые лучшие модели успешно справляются лишь с четвертью задач долгосрочного программирования в бенчмарках, предназначенных для измерения стойкости. GLM-5.1 преодолевает этот потолок, и если ее способность к стратегической переоценке будет подтверждена в ходе независимых тестов, это будет качественный сдвиг, а не просто прирост производительности.

deeplearning.ai/gnews.cz - GH

Китайская модель ИИ GLM-5.1 может работать в автономном режиме до восьми часов. Гигант с открытым исходным кодом становится главным претендентом в мире

Комментарии

TOP

Общие новости вступают в новую эру: 1,6 миллиона просмотров за 24 часа продемонстрировали силу современного независимого журналистики

Agrofert планирует инвестиции на сумму 120 миллионов евро в Виттенберге (Германия). Это поддержка со стороны правительства Саксонии-Анхальт.

Африка, Китай, США и новая геометрия глобального равновесия

Путин охарактеризовал переговоры России и Китая с участием ключевых чиновников как содержательные

Ежедневное резюме экономики Чехии: индекс PX, Škoda Auto, RB Global и Big Iron Auction Company, Cerebras Systems и Nvidia, Ryanair и нефть Brent (20 мая 2026 года)

Китай критикует Японию: необходимо окончательно разорвать связи с милитаристским прошлым

Ежедневное резюме экономики Чехии: Agrofert, Thales и VOP CZ, Santander Bank Polska, Colt CZ, Elon Musk, Microsoft, NVIDIA и Cerebras Systems (19 мая 2026 года)

ИИ-диагностика маммографии в реальном режиме эксплуатации: Google в некоторых случаях показал более высокую точность, чем врачи

GNEWS Exclusive

Общие новости вступают в новую эру: 1,6 миллиона просмотров за 24 часа продемонстрировали силу современного независимого журналистики

Путин охарактеризовал переговоры России и Китая с участием ключевых чиновников как содержательные

Бабиш усмиряет непокорного президента Павла, в то время как оппозиция заключает союз с лидером судетских немцев Поссельтом (Петр Холец, live #273)

Разоблачение чёрной магии на Пражском Граде: Зловещая вывозка чешского сокровища из собора Святого Вита в Германию в 2027 году! (Хонжа Бетко – Homosignum)

Чешский аналитик безопасности Ян Шнайдер: Разоблаченные британские архивы показывают, что расширение НАТО было провокацией против России — Почему элиты молчат!

Резюме 18-й недели General News (4–10 мая 2026 года)

Миллиардные прибыли Лихтенштейна за счет Чехии: постановление Европейского суда по правам человека грозит финансовым крахом Чехии и наследием декретов Бенеша

Общие новости - Главные события в мире на 10 мая 2026 года