Китайская компания Z.ai обновила свою флагманскую языковую модель с открытым весом, и новая версия GLM-5.1 переписывает правила игры в области агентного ИИ - искусственного интеллекта, способного выполнять сложные задачи в течение длительного времени без постоянного контроля со стороны человека. В то время как большинство современных моделей работают в рамках фиксированного бюджета жетонов или сдаются, как только понимают, что дальнейшие рассуждения не изменят результат, GLM-5.1 может автономно работать над одной задачей до восьми часов.

Ключ - в ином подходе к мышлению. Модель проходит через цикл планирования, выполнения, оценки промежуточных результатов и переоценки выбранной стратегии - и повторяет этот цикл сотни раз, пока не решит, что задача выполнена. Если она понимает, что текущий подход не ведет к цели, то меняет всю стратегию.

В ходе внутренних тестов модели Z.ai использовали тысячи звонков в течение нескольких часов. Именно эта способность распознавать тупиковые ситуации и отклоняться от них, по мнению экспертов, является тем, что современные бенчмарки не могут надежно зафиксировать.

С технической точки зрения это впечатляющая машина. GLM-5.1 построен на архитектуре трансформатора "смесь экспертов" с общим числом параметров 754 миллиарда, причем на один токен приходится 40 миллиардов активных параметров. Контекстное окно может вмещать до 200 000 входных лексем, а выходное достигает 128 000 лексем. Модель обрабатывает рассуждения, вызовы функций и структурированный вывод. Веса свободно доступны через HuggingFace по лицензии MIT - для коммерческого и некоммерческого использования.

Результаты в бенчмарках убедительны, особенно в области программирования. По индексу искусственного интеллекта GLM-5.1 набирает 51 балл в режиме рассуждений - самый высокий показатель среди моделей с открытым исходным кодом, хотя и уступает проприетарным моделям Gemini 3.1 Pro Preview и GPT-5.4 (обе - 57 баллов) и Claude Opus 4.6 (53 балла).

В таблице лидеров Arena Code, где модели соревнуются в анонимных парных боях, оцениваемых программистами, GLM-5.1 занял третье место с рейтингом Эло 1 530, уступив Claude Opus 4.6 (1 542) и Claude Opus 4.6 в режиме рассуждения (1 548). На реальных программных задачах с GitHub, протестированных бенчмарком SWE-Bench Pro, GLM-5.1 даже лидировал с результатом 58,4 %, опередив GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) и Gemini 3.1 Pro (54,2 %).

Слабые места проявляются в математике и научном мышлении. В GPQA Diamond, тесте научных вопросов для выпускников, GLM-5.1 набрал 86,2 %, а Gemini 3.1 Pro - 94,3 %. В конкурсном тесте AIME 2026 по математике GLM-5.1 набрал 95,3 %, а GPT-5.4 - 98,7 %.

Цена за производительность остается значительно ниже, чем у проприетарных альтернатив - $1,40 за миллион входных токенов против $5 у Claude Opus 4.6. Однако Z.ai повысила цены по сравнению с предыдущей версией: токены - примерно на 40 процентов, а подписка для программистов - примерно вдвое. Разрыв сокращается.

Более широкий контекст отчета имеет огромное значение. По данным независимой организации METR, объем задач, которые ИИ-агенты могут решать автономно, удваивается примерно каждые семь месяцев. Однако даже самые лучшие модели успешно справляются лишь с четвертью задач долгосрочного программирования в бенчмарках, предназначенных для измерения стойкости. GLM-5.1 преодолевает этот потолок, и если ее способность к стратегической переоценке будет подтверждена в ходе независимых тестов, это будет качественный сдвиг, а не просто прирост производительности.

deeplearning.ai/gnews.cz - GH