Китайская компания Z.ai выпустила модель GLM-5.2 с открытыми весами, которая в двух отдельных исследованиях показала результаты на уровне некоторых конфигураций Claude от Anthropic при поиске уязвимостей и расследовании инцидентов. Об этом свидетельствуют тесты Graphistry и Semgrep. Эти оценки относятся к конкретным наборам задач и не доказывают общего равенства моделей.
Что показал тест Graphistry
23 июня Graphistry сообщила, что связка OpenCode и GLM-5.2 решила 28 из 59 заданий закрытого теста CyBT-CTF. В сопоставимых конфигурациях такой же результат получили модели Claude Opus 4.7 и 4.8. По оценке исследователей, Claude выполнила задания на 19% быстрее, но стоила более чем в 2,2 раза дороже при одинаковом числе решений.
При этом лучшая связка Louie и Opus решила 35 заданий из 59 против 28 у OpenCode и GLM-5.2. Авторы теста отдельно подчеркнули, что программная среда агента, инструменты и настройка запросов могут влиять на итог сильнее, чем выбор между этими двумя моделями. Поэтому результат предлагается использовать как отправную точку, а не как универсальный рейтинг.
Отдельная проверка Semgrep
В другом исследовании специалисты Semgrep проверяли способность моделей находить IDOR-уязвимости, связанные с недостаточным контролем доступа к объектам. GLM-5.2 с минимальной программной обвязкой получила 39% по метрике F1 и оказалась выше протестированных конфигураций Claude Code.
Однако специализированная система Semgrep Multimodal показала более высокие результаты: 61% с GPT-5.5 и 53% с Opus 4.8. Исследователи прямо указали на ограничение эксперимента: это была одна задача, один набор данных и один запуск. По их словам, на другом типе уязвимостей соотношение результатов может измениться.
Что известно о GLM-5.2
Согласно официальному сообщению Z.ai, GLM-5.2 представили 16 июня 2026 года как модель для продолжительных задач, программирования и работы с контекстом до одного миллиона токенов. Карточка модели на Hugging Face указывает размер в 753 млрд параметров и лицензию MIT.
Публикация весов позволяет загружать модель, запускать её в собственной инфраструктуре и адаптировать под отдельные задачи. При этом открытые веса не означают, что разработчик раскрыл обучающие данные и весь процесс создания системы. Ранее Cifrum.kz публиковал инструкцию по локальному запуску моделей через Ollama, где объясняется практическая сторона такого подхода.
Почему говорить о полном паритете с Mythos преждевременно
В исходном обзоре Perplexity результат описан как сопоставимый с Anthropic Mythos. Однако опубликованные численные сравнения Graphistry и Semgrep относятся прежде всего к Claude Opus 4.7 и 4.8. Mythos в приведённых таблицах не выступает отдельной сопоставимой моделью.
Корректный вывод состоит в том, что GLM-5.2 достигла уровня Claude Opus в нескольких узких сценариях кибербезопасности. Эти тесты не показывают общий уровень рассуждений, надёжность во всех видах программирования или способность модели решать любые задачи по защите систем.
Почему результат привлёк внимание
Axios отмечает, что распространение сильных моделей с открытыми весами одновременно снижает стоимость инструментов для защитников и упрощает их автономное использование без контроля поставщика. Это создаёт новые возможности для команд безопасности, но также вызывает опасения по поводу потенциального злоупотребления.
Новость появилась на фоне более широкой дискуссии о доступе к передовым моделям. Cifrum.kz ранее писал о том, как глава Anthropic призвал страны G7 координировать политику в сфере ИИ. Результаты GLM-5.2 показывают, что оценка моделей всё больше зависит не только от страны разработки или типа лицензии, но и от конкретной задачи, методики и инструментальной среды.
Источники: Z.ai, Hugging Face, Graphistry, Semgrep, Axios.
Изображение создано искусственным интеллектом для Cifrum.kz и носит иллюстративный характер. Оно не демонстрирует реальный интерфейс или результаты тестирования.

Комментарии к статье