Создатели архитектуры Трансформеров представили открытую модель искусственного интеллекта с 8 миллиардами параметров, которая демонстрирует рекордные результаты в задачах программирования и математики
Прорыв в области компактных языковых моделей
Стартап Essential AI Labs, основанный двумя авторами легендарной статьи «Attention Is All You Need», представил открытую языковую модель Rnj-1, которая бросает вызов устоявшемся представлениям о том, что для высокой производительности искусственного интеллекта необходимы сотни миллиардов параметров. Модель с всего 8 миллиардами параметров продемонстрировала результаты, превосходящие значительно более крупные системы в специализированных задачах.
Запуск Rnj-1 знаменует важный поворот в развитии технологий искусственного интеллекта: вместо наращивания вычислительных мощностей и размеров моделей, разработчики сосредоточились на оптимизации архитектуры и качестве обучающих данных.
Кто стоит за Essential AI Labs
Основатели с выдающейся репутацией
Essential AI Labs основали Ашиш Васвани (Ashish Vaswani) и Ники Пармар (Niki Parmar) — двое из восьми соавторов революционной научной работы 2017 года «Attention Is All You Need». Эта статья представила миру архитектуру Трансформеров, которая легла в основу всех современных больших языковых моделей. Буква «T» в названии ChatGPT как раз расшифровывается как «Transformer» — трансформер.
До создания Essential AI Labs Васвани и Пармар совместно основали другой стартап в области искусственного интеллекта — Adept AI. Однако они приняли решение покинуть проект, чтобы сосредоточиться на более фундаментальных исследовательских задачах в области ИИ.

Вклад в развитие искусственного интеллекта
Архитектура Трансформеров, предложенная в 2017 году, произвела революцию в обработке естественного языка и стала фундаментом для создания таких систем, как GPT от OpenAI, BERT от Google, Claude от Anthropic и множества других современных языковых моделей. Возвращение создателей этой технологии с новым проектом привлекло значительное внимание индустрии.
Модель Rnj-1: технические характеристики
Происхождение названия
Модель получила название Rnj-1, которое произносится как «range-one» (рэндж-уан). Это имя выбрано в честь выдающегося индийского математика Сринивасы Рамануджана (Srinivasa Ramanujan), известного своим исключительным вкладом в теорию чисел и математический анализ. Выбор такого имени подчёркивает ориентацию модели на математические и научные задачи.
Открытость и доступность
Rnj-1 выпущена как полностью открытая модель (open-source) с лицензией Apache 2.0. Это означает, что веса модели доступны для свободного использования, модификации и встраивания в коммерческие продукты. Открытые веса модели уже размещены на платформе Hugging Face, а доступ к вычислительным мощностям для запуска модели предоставляется через API платформы Together AI.
Архитектура и параметры
Модель Rnj-1 содержит 8 миллиардов параметров, что делает её относительно компактной по современным меркам. Для сравнения, модели GPT-4 приписывают более триллиона параметров, а популярные открытые модели вроде Llama 3 имеют версии на 70 и 405 миллиардов параметров.
Архитектура Rnj-1 построена на базе Gemma 3 от Google, однако модель была обучена полностью с нуля (from scratch), а не путём дообучения существующей системы. Это позволило создателям оптимизировать каждый аспект модели под конкретные задачи.
Объём обучающих данных
В процессе обучения модель Rnj-1 обработала 8.7 триллиона токенов данных. Токен — это базовая единица текста, которую обрабатывает языковая модель, примерно соответствующая части слова или целому короткому слову. Для сравнения, оригинальная GPT-3 обучалась на примерно 300 миллиардах токенов, что в 29 раз меньше.
Расширенный контекст
Модель поддерживает окно контекста размером до 32 тысяч токенов, что примерно соответствует 24 тысячам слов или небольшой книге. Для достижения такого расширенного контекста использовались передовые техники YaRN (Yet another RoPE extensioN method) и глобальное самовнимание (global self-attention). Это позволяет модели работать с большими объёмами кода, технической документацией или развёрнутыми инструкциями.
Инновационный оптимизатор Muon
При обучении Rnj-1 разработчики применили новый оптимизатор под названием Muon. Оптимизатор — это алгоритм, который управляет процессом обучения нейронной сети, определяя, как именно модель должна корректировать свои параметры для улучшения результатов. Использование Muon позволило существенно снизить вычислительные затраты на обучение модели при сохранении высокого качества результатов.
Рекордные результаты в бенчмарках
SWE-bench Verified: революция в задачах программирования
Наиболее впечатляющие результаты Rnj-1 продемонстрировала в тесте SWE-bench Verified — специализированном бенчмарке, который оценивает способность моделей решать реальные задачи программистов. Этот тест включает реальные проблемы из GitHub, требующие понимания существующего кода, выявления ошибок и написания корректных исправлений.
Модель Rnj-1 набрала в этом тесте 20.8%, что является выдающимся результатом для модели её размера. Для понимания масштаба достижения:
- Конкурирующая модель Qwen 2.5 7B от китайской Alibaba набирает около 4.5% — в 4.5 раза меньше
- Результат Rnj-1 превосходит даже крупную модель Google Gemini 2.0 Flash
- Большинство других моделей размером 8-10 миллиардов параметров показывают результаты в диапазоне 3-8%
Математические способности
В математическом бенчмарке AIME’25 (American Invitational Mathematics Examination), который включает сложные задачи олимпиадного уровня, Rnj-1 показала результаты, сопоставимые с моделями, содержащими более 20 миллиардов параметров. Это демонстрирует, что компактная архитектура не стала препятствием для развития логических и аналитических способностей модели.
Специализация на STEM-задачах
Модель Rnj-1 специально оптимизирована для задач в областях STEM (Science, Technology, Engineering, Mathematics — наука, технологии, инженерия, математика). Эта специализация проявляется в:
- Написании и отладке программного кода
- Решении математических задач
- Анализе научных данных
- Технической документации
- Инженерных расчётах
Работа с инструментами (Tool Use)
Rnj-1 демонстрирует лучшие в своём классе способности к использованию внешних инструментов (tool use). Это означает, что модель может эффективно взаимодействовать с внешними API, базами данных, калькуляторами и другими программными интерфейсами для решения сложных задач, требующих комбинации языковых навыков и вычислительных операций.
Геополитический контекст: ответ США на китайское доминирование
Ситуация на рынке компактных моделей
Выход Rnj-1 происходит на фоне обострившейся конкуренции между США и Китаем в области искусственного интеллекта. В 2024-2025 годах в сегменте компактных открытых языковых моделей доминировали китайские разработки:
Семейство Qwen от Alibaba стало стандартом де-факто для многих разработчиков благодаря высокому качеству, открытому доступу и регулярным обновлениям. Модели Qwen различных размеров показывали сильные результаты в большинстве бенчмарков.
DeepSeek от одноимённой китайской компании также привлёк значительное внимание благодаря инновационным архитектурным решениям и эффективности обучения.
Технологический суверенитет
Один из важнейших аспектов проекта Rnj-1 — демонстрация возможности создания передового ИИ без полной зависимости от аппаратного обеспечения NVIDIA, которое в настоящее время доминирует на рынке ускорителей для машинного обучения.
Модель Rnj-1 обучалась на гибридном флоте вычислительных устройств:
- Google TPU (Tensor Processing Units) — специализированные чипы Google для машинного обучения
- AMD MI300X — графические ускорители от AMD, конкурирующие с решениями NVIDIA
Успешное обучение высокопроизводительной модели на этом оборудовании доказывает, что экосистема машинного обучения становится более диверсифицированной, а зависимость от единственного поставщика чипов снижается.
Стратегическое значение для США
Возвращение лидерства США в области компактных open-source моделей имеет стратегическое значение:
- Экономическая конкурентоспособность: Открытые модели становятся основой для множества коммерческих продуктов и сервисов
- Технологическая независимость: Наличие собственных передовых моделей снижает зависимость от зарубежных разработок
- Академическое лидерство: Привлечение исследователей и инвестиций в американские компании
- Регуляторное влияние: Установление стандартов и практик в индустрии ИИ
Смещение парадигмы: эффективность против масштаба
От наращивания к оптимизации
Выход Rnj-1 символизирует важный сдвиг в философии разработки искусственного интеллекта. Последние годы индустрия следовала принципу «больше — значит лучше», постоянно увеличивая размеры моделей:
- GPT-3 (2020): 175 миллиардов параметров
- GPT-4 (2023): по оценкам, более триллиона параметров
- Llama 3 (2024): до 405 миллиардов параметров
Однако такой подход имеет существенные недостатки:
- Огромные затраты на обучение, исчисляемые десятками миллионов долларов
- Высокие требования к инфраструктуре для развёртывания
- Экологический след от энергопотребления
- Ограниченная доступность для исследователей и небольших компаний
Философия Essential AI: умная архитектура
Ашиш Васвани и его команда демонстрируют альтернативный подход:
- Качество данных важнее количества: Тщательный отбор и подготовка обучающего датасета
- Архитектурные инновации: Оптимизация структуры нейронной сети для конкретных задач
- Эффективность обучения: Использование передовых алгоритмов оптимизации вроде Muon
- Специализация: Фокус на определённых областях применения вместо универсальности
Практические преимущества компактности
Модель размером 8 миллиардов параметров обладает рядом практических преимуществ:
- Запуск на потребительском оборудовании: Rnj-1 можно запустить на мощном ноутбуке или одной профессиональной видеокарте
- Низкая задержка: Более быстрые ответы благодаря меньшему количеству вычислений
- Доступность для разработчиков: Не требуется дорогая облачная инфраструктура
- Возможность файн-тюнинга: Дообучение под специфические задачи становится доступным
- Конфиденциальность: Возможность локального развёртывания без передачи данных в облако
Технологические инновации в Rnj-1
Базовая архитектура Gemma 3
В качестве отправной точки Essential AI выбрала архитектуру Gemma 3 от Google. Gemma представляет собой семейство открытых языковых моделей, разработанных на основе той же технологии, что используется в закрытой модели Gemini. Однако команда Essential AI не просто взяла готовую модель, а полностью переобучила её с нуля, внеся множество модификаций.
YaRN: расширение контекстного окна
Технология YaRN (Yet another RoPE extensioN) позволила расширить контекстное окно модели до 32 тысяч токенов без существенной потери качества. RoPE (Rotary Position Embedding) — это метод кодирования позиционной информации в трансформерах, а YaRN представляет собой его усовершенствованную версию, позволяющую эффективно обрабатывать более длинные последовательности.
Глобальное самовнимание
Механизм глобального самовнимания (global self-attention) позволяет каждому токену в последовательности «обращать внимание» на все остальные токены, что критически важно для понимания контекста в длинных документах и программном коде.
Оптимизатор Muon
Разработка и применение нового оптимизатора Muon представляет собой значительный технологический вклад. Эффективные алгоритмы оптимизации — ключевой фактор успеха в обучении нейронных сетей, влияющий на скорость сходимости, стабильность обучения и качество финальной модели.
Практическое применение Rnj-1
Разработка программного обеспечения
Рекордные результаты в SWE-bench делают Rnj-1 идеальным инструментом для:
- Автоматического исправления багов в существующем коде
- Рефакторинга и оптимизации программ
- Генерации юнит-тестов для проверки функциональности
- Документирования кода и создания технических описаний
- Код-ревью и выявления потенциальных проблем
Научные и инженерные расчёты
Специализация на STEM-задачах делает модель ценной для:
- Решения сложных математических задач
- Проведения численных экспериментов
- Анализа научных данных
- Моделирования физических процессов
- Инженерных расчётов и проектирования
Образование
Компактность модели и возможность локального запуска открывают перспективы для образовательных учреждений:
- Персонализированное обучение программированию
- Решение математических задач с подробными объяснениями
- Помощь студентам в изучении STEM-дисциплин
- Создание интерактивных учебных материалов
Корпоративное применение
Для бизнеса Rnj-1 предлагает:
- Автоматизацию рутинных задач программирования
- Повышение производительности разработчиков
- Снижение затрат на облачную инфраструктуру
- Возможность работы с конфиденциальными данными локально
Реакция индустрии и перспективы
Место в экосистеме open-source AI
Появление Rnj-1 усиливает позиции открытого искусственного интеллекта. В настоящее время основные игроки в этом сегменте:
- Meta с семейством Llama (последняя версия Llama 3.3)
- Alibaba с моделями Qwen различных размеров
- Mistral AI с эффективными европейскими моделями
- DeepSeek с инновационными китайскими решениями
- Теперь Essential AI с Rnj-1
Влияние на рынок
Выход Rnj-1 может оказать значительное влияние на индустрию:
- Переоценка подхода к масштабированию: Компании могут пересмотреть стратегию простого увеличения размеров моделей
- Фокус на эффективности: Большее внимание к оптимизации архитектуры и алгоритмов обучения
- Специализация моделей: Рост интереса к созданию узкоспециализированных, но очень эффективных моделей
- Диверсификация аппаратного обеспечения: Доказательство возможности обучения на альтернативном оборудовании
Будущие планы Essential AI
Хотя конкретные планы развития модели не раскрываются, можно ожидать:
- Выпуск версий большего размера для задач, требующих более широких знаний
- Дальнейшую оптимизацию для специфических областей применения
- Развитие мультимодальных возможностей (работа с изображениями, аудио)
- Создание экосистемы инструментов и приложений на базе Rnj-1
Выводы
Запуск модели Rnj-1 от Essential AI Labs представляет собой важную веху в развитии искусственного интеллекта. Создатели архитектуры Трансформеров доказали, что идеально спроектированная компактная модель может превосходить гигантов в специализированных задачах.
Ключевые достижения проекта:
- Технологический прорыв: Модель 8B превзошла системы в несколько раз крупнее
- Эффективность: Доказательство возможности создания мощного ИИ без триллионов параметров
- Открытость: Полностью открытая модель доступна всем разработчикам
- Независимость: Обучение на альтернативном оборудовании снижает зависимость от монополистов
- Специализация: Фокус на STEM и программировании вместо универсальности
Rnj-1 символизирует смещение парадигмы в индустрии искусственного интеллекта от гонки за размером к гонке за эффективностью. Это изменение может сделать передовые технологии ИИ более доступными для исследователей, стартапов и компаний по всему миру, ускорив инновации в этой критически важной области.
Возвращение США на лидирующие позиции в сегменте компактных открытых моделей также имеет геополитическое значение, демонстрируя способность американских исследователей конкурировать с китайскими разработками даже в условиях экспортных ограничений на передовые полупроводники.
Возможно вам будет интересно
Huawei и DeepSeek-R1-Safe: технологический взгляд на безопасный искусственный интеллект Huawei представила модификацию языковой модели DeepSeek-R1-Safe с усиленной системой безопасности. Модель показывает более высокий уровень защиты по сравнению с Qwen-235B, сохраняя при этом производительность и минимизируя нагрузку на вычислительные ресурсы.
Figure 03 в 2025 году: гуманоидный робот третьего поколения попал в список лучших изобретений TIME Американская компания Figure представила революционный гуманоидный робот Figure 03 с интегрированной системой искусственного интеллекта Helix. Модель содержит 7 миллиардов параметров для высокоуровневого рассуждения и демонстрирует впечатляющие результаты в автономной работе.
Робот строитель: новости в строительной индустрии 2025 года Строительная индустрия переживает технологическую революцию благодаря внедрению роботов с искусственным интеллектом. Австралийский робот Hadrian X укладывает до 500 кирпичей в час, демонстрируя 5-20-кратное превосходство над человеком, а NASA разрабатывает космических роботов-строителей для будущих миссий на Луну и Марс.
Цифровизация Казахстана в 2025 году: решения Цифрового штаба Премьер-министр Казахстана провел заседание Цифрового штаба по реализации поручений Президента о развитии искусственного интеллекта и цифровизации страны. Утвержден регламент по работе с массивами данных для обучения моделей ИИ и интеграция государственных информационных систем.
Источники
- Essential AI — официальный сайт — объявление о выпуске модели Rnj-1
- Essential AI на Hugging Face — Rnj-1 — открытые веса базовой модели
- Essential AI на Hugging Face — Rnj-1-Instruct — инструкционная версия модели
- Bloomberg: Transformer Paper Authors at AI Startup Debut Open Source Model — анализ выпуска модели
- VentureBeat: Essential AI emerges from stealth — информация о компании и финансировании
- Business Wire: Essential AI Raises $56.5M Series A — данные о раунде инвестиций
- Ashish Vaswani в X (Twitter) — официальные анонсы основателя
- Together AI — платформа для доступа к модели через API
Примечание: Настоящий материал подготовлен на основании информации, размещённой в открытых источниках, и носит исключительно информационно-справочный характер. Редакция не несет ответственности за точность и полноту сведений, предоставленных третьими лицами.





