Қытайлық Z.ai компаниясы ашық салмақтары бар GLM-5.2 моделін шығарды. Екі бөлек зерттеуде ол осалдықтарды іздеу және киберинциденттерді талдау кезінде Anthropic әзірлеген Claude моделінің кейбір конфигурацияларымен деңгейлес нәтиже көрсетті. Бұл туралы Graphistry және Semgrep сынақтары мәлімдейді. Бағалау нақты тапсырмалар жиынтығына қатысты және модельдердің жалпы мүмкіндігі тең екенін дәлелдемейді.
Graphistry сынағы нені көрсетті
23 маусымда Graphistry OpenCode және GLM-5.2 жүйесі жабық CyBT-CTF сынағындағы 59 тапсырманың 28-ін орындағанын хабарлады. Салыстырмалы конфигурацияларда Claude Opus 4.7 және 4.8 модельдері де осындай нәтиже көрсеткен. Зерттеушілердің бағалауынша, Claude тапсырмаларды 19% жылдамырақ орындаған, бірақ бірдей шешім саны үшін оның құны 2,2 еседен астам жоғары болған.
Сонымен бірге Louie және Opus-тың үздік конфигурациясы 59 тапсырманың 35-ін орындады, ал OpenCode пен GLM-5.2 нәтижесі 28 болды. Сынақ авторлары агенттің бағдарламалық ортасы, құралдары және сұрауларды баптау қорытындыға модель таңдаудан да көбірек әсер етуі мүмкін екенін атап өтті. Сондықтан бұл нәтиже әмбебап рейтинг емес, бастапқы бағдар ретінде қарастырылуы керек.
Semgrep жүргізген бөлек тексеру
Semgrep зерттеуінде модельдердің IDOR деп аталатын, объектілерге қолжетімділікті жеткіліксіз тексеруге байланысты осалдықтарды табу қабілеті бағаланды. Ең аз бағдарламалық қолдаумен жұмыс істеген GLM-5.2 F1 метрикасы бойынша 39% алып, сынаққа қатысқан Claude Code конфигурацияларынан жоғары орналасты.
Алайда арнайы жасалған Semgrep Multimodal жүйесі бұдан жоғары нәтиже көрсетті: GPT-5.5-пен 61%, Opus 4.8-пен 53%. Зерттеушілер тәжірибенің шектеуін тікелей атады: бір тапсырма, бір деректер жиынтығы және бір іске қосу. Олардың айтуынша, осалдықтың басқа түрін тексергенде нәтижелер арақатынасы өзгеруі мүмкін.
GLM-5.2 туралы не белгілі
Z.ai компаниясының ресми хабарламасына сәйкес, GLM-5.2 2026 жылғы 16 маусымда ұзақ тапсырмаларға, бағдарламалауға және бір миллион токенге дейінгі контекспен жұмыс істеуге арналған модель ретінде таныстырылды. Hugging Face-тегі модель картасында 753 млрд параметр және MIT лицензиясы көрсетілген.
Салмақтардың жариялануы модельді жүктеуге, өз инфрақұрылымында іске қосуға және жеке тапсырмаларға бейімдеуге мүмкіндік береді. Бірақ ашық салмақтар әзірлеуші оқу деректері мен жүйені жасаудың толық үдерісін ашты дегенді білдірмейді. Cifrum.kz бұған дейін Ollama арқылы модельдерді жергілікті іске қосу жөніндегі нұсқаулықты жариялаған.
Mythos-пен толық теңдік туралы айтуға неге ерте
Perplexity шолуында нәтиже Anthropic Mythos моделімен салыстырылған. Алайда Graphistry мен Semgrep жариялаған сандық кестелер негізінен Claude Opus 4.7 және 4.8 модельдеріне қатысты. Mythos бұл салыстыруларда жеке әрі тең жағдайдағы модель ретінде көрсетілмеген.
Сондықтан GLM-5.2 бірнеше тар киберқауіпсіздік сценарийінде Claude Opus деңгейіне жетті деу дұрысырақ. Бұл сынақтар модельдің жалпы пайымдау қабілетін, бағдарламалаудың барлық түріндегі сенімділігін немесе жүйелерді қорғауға қатысты кез келген тапсырманы орындай алатынын көрсетпейді.
Нәтиже неліктен назар аудартты
Axios мықты ашық салмақты модельдердің таралуы қорғаныс мамандарына арналған құралдардың құнын төмендетіп, оларды провайдердің бақылауынсыз дербес пайдалануға мүмкіндік беретінін жазады. Бұл қауіпсіздік топтарына жаңа мүмкіндік береді, бірақ ықтимал теріс пайдалану туралы алаңдаушылық та туғызады.
Жаңалық алдыңғы қатарлы модельдерге қолжетімділік туралы кең пікірталас аясында шықты. Cifrum.kz бұған дейін Anthropic басшысының G7 елдерін ЖИ саясатын үйлестіруге шақырғаны туралы жазды. GLM-5.2 нәтижелері модельді бағалау әзірленген елге немесе лицензия түріне ғана емес, нақты тапсырмаға, әдістемеге және құралдық ортаға да тәуелді екенін көрсетеді.
Дереккөздер: Z.ai, Hugging Face, Graphistry, Semgrep, Axios.
Сурет Cifrum.kz үшін жасанды интеллект көмегімен жасалды және иллюстрациялық сипатқа ие. Ол нақты интерфейсті немесе сынақ нәтижелерін көрсетпейді.

Мақалаға пікірлер