Маунтин-Вью, США. Google Research 30 июня представила TabFM — фундаментальную модель для классификации и регрессии на табличных данных. Модель может работать с новой таблицей без отдельного обучения её весов, ручного проектирования признаков и перебора гиперпараметров, говорится в сообщении исследовательского подразделения Google.

Это не означает, что TabFM «никогда не училась». Модель заранее обучили на сотнях миллионов синтетических наборов данных. Слово zero-shot в данном случае означает другое: при переходе к конкретной таблице параметры модели не обновляются. Размеченные примеры передаются ей прямо во время инференса и становятся контекстом для прогноза.

Почему таблицы остаются сложной задачей для ИИ

Продажи, заявки клиентов, транзакции, складские остатки и результаты обследований обычно хранятся не как текст или изображения, а в строках и столбцах. Для таких данных десятилетиями применяются градиентный бустинг, случайные леса и другие специализированные алгоритмы.

Классический проект требует выбрать признаки, обработать пропуски и категории, обучить несколько вариантов модели, подобрать настройки и проверить их на отложенной выборке. TabFM пытается сократить этот цикл: одна предварительно обученная модель должна распознать закономерность новой задачи по примерам, которые ей показали вместе с неизвестными строками.

Этап	Обычный табличный ML	TabFM
Подготовка задачи	Отдельный пайплайн для каждого набора	Обучающие строки передаются как контекст
Параметры модели	Обновляются при обучении	Не меняются на новой таблице
Настройка	Часто нужен поиск гиперпараметров	Базовый режим — один прямой проход
Проверка качества	Обязательна	Также обязательна

Разница в рабочем процессе. TabFM сокращает обучение под конкретную таблицу, но не отменяет проверку данных и качества прогноза.

Схема из четырёх этапов работы TabFM: контекст, внимание по строкам и столбцам, сжатие строк и прогноз — Упрощённая схема работы TabFM. Редакционная визуализация Cifrum.kz на основе описания архитектуры Google Research.

Как модель читает строки и столбцы

TabFM получает размеченную часть таблицы и строки, для которых нужен ответ, как единый ввод. Первый блок архитектуры попеременно применяет внимание по столбцам и строкам: модель ищет связи между признаками и сравнивает примеры между собой.

Материал по теме: Компьютерный вирус троянский конь: почему он опаснее, чем кажется.

Затем информация каждой строки сжимается в плотное векторное представление. Последний блок — причинный ICL-трансформер из 24 слоёв — работает уже с последовательностью этих векторов и выдаёт класс или числовое значение. По данным карточки TabFM 1.0.0, архитектура поддерживает числовые и категориальные столбцы.

В совместимом со scikit-learn интерфейсе по-прежнему используется метод fit(), что может сбить с толку. Однако официальный репозиторий TabFM поясняет: этот вызов подготавливает кодировщики категорий и масштабирующие преобразования, а не переобучает параметры фундаментальной модели.

Почему обучение прошло на синтетических таблицах

Для текстовых и визуальных моделей доступны огромные открытые коллекции, тогда как промышленные таблицы часто содержат коммерческие схемы и персональные данные. Google обошла этот дефицит, динамически генерируя сотни миллионов синтетических наборов с помощью структурных причинных моделей.

Такой подход позволяет показать модели множество зависимостей между признаками, не используя реальные клиентские базы. Но это одновременно источник неопределённости: синтетический мир не гарантирует полного совпадения с редкими событиями, изменением поведения пользователей или смещениями в конкретной отрасли.

Что показал рейтинг TabArena

Google оценила модель на открытом бенчмарке TabArena: 38 наборах для классификации и 13 для регрессии, содержащих от 700 до 150 тысяч строк. Система рассчитывает рейтинг Elo по результатам попарных сравнений методов.

График рейтинга Elo шести ведущих моделей TabArena для классификации и регрессии — Рейтинг Elo для классификации и регрессии на TabArena. Редакционная визуализация Cifrum.kz по данным графика Google Research; более высокий балл означает более сильный результат внутри соответствующей задачи.

На опубликованном Google графике базовая TabFM получила 1727 баллов Elo в классификации и 1940 в регрессии, заняв второе место в обеих группах. Первой стала TabFM-Ensemble — 1815 и 2125 баллов соответственно.

Однако ансамблевый вариант нельзя приравнивать к самому простому запуску. Он объединяет 32 конфигурации при помощи неотрицательных наименьших квадратов, добавляет перекрёстные и SVD-признаки, а в классификации — калибровку Платта. Базовая TabFM делает прогноз одним прямым проходом без подбора настроек и кросс-валидации.

Материал по теме: ОБНОВЛЯЙСЯ ИЛИ ПРОИГРАЕШЬ: ПОЧЕМУ ВАШИ ДАННЫЕ В ОПАСНОСТИ ПРЯМО СЕЙЧАС

Elo — относительный показатель, а TabArena является обновляемым бенчмарком. Поэтому лидерство на одном срезе не доказывает превосходство на каждой бизнес-задаче. Как показывают и другие тесты ИИ-моделей на специализированных заданиях, итог зависит от состава данных, метрики и условий сравнения.

Инфографика: 51 набор данных, от 700 до 150 тысяч строк, до 10 классов и оптимизация до 500 признаков — Масштаб оценки TabArena и заявленные границы TabFM 1.0.0. Источники: Google Research и карточка модели на Hugging Face.

Где заканчивается обещание «без обучения»

Нужны размеченные примеры. TabFM не угадывает задачу из пустоты: исторические строки с известными ответами входят в контекст.
Память растёт вместе с контекстом. Все обучающие строки передаются модели во время инференса.
Есть предел классов. Текущая версия поддерживает не более 10 классов.
Очень широкие таблицы — зона риска. Модель оптимизирована для таблиц до 500 признаков; на более широких качество может снижаться.
Высокорисковые решения требуют отдельной проверки. Google рекомендует оценивать модель на репрезентативной отложенной выборке перед применением.

Прогноз следует воспринимать как оценку вероятности, а не как гарантию. Недавний случай, когда 12 ИИ-моделей единогласно ошиблись в футбольном прогнозе, наглядно показывает разницу между правдоподобным расчётом и реальным исходом.

Открытый код, но не полностью открытые условия

Google опубликовала код TabFM на GitHub по лицензии Apache 2.0 и подготовила веса для JAX и PyTorch. При этом сами веса доступны по отдельной некоммерческой лицензии. В карточке также указано, что TabFM не является официально поддерживаемым продуктом Google.

Компания планирует встроить технологию в BigQuery. Согласно анонсу, в ближайшие недели пользователи должны получить возможность запускать классификацию и регрессию SQL-командой AI.PREDICT. До фактического появления функции это остаётся объявленным планом, а не уже доступной возможностью.

Что TabFM может изменить на практике

Главный потенциальный эффект — скорость первого прототипа. Аналитик сможет быстро проверить, есть ли в таблице сигнал для прогноза оттока, риска мошенничества, стоимости или спроса, прежде чем строить полноценный ML-пайплайн. Для небольших команд это может снизить порог входа в предиктивную аналитику.

Материал по теме: Genesis AI представила универсального робота Eno: новое слово в автоматизации складов и домов

Но финальное решение по-прежнему должно учитывать качество исходных данных, утечки целевой переменной, смещение выборки, стоимость ошибки и изменения во времени. TabFM убирает часть инженерной рутины; ответственность за корректную постановку задачи она не убирает.

Источники: анонс Google Research, репозиторий TabFM, карточка модели TabFM 1.0.0, бенчмарк TabArena.

Главное изображение создано искусственным интеллектом для Cifrum.kz и является концептуальной редакционной иллюстрацией. Графики и схемы подготовлены Cifrum.kz по данным указанных источников.

Редакционное уведомление

Редакционное уведомление и отказ от ответственности

Настоящий материал опубликован в информационных целях. Редакция стремится проверять достоверность сведений, однако опубликованная информация может со временем изменяться, уточняться или обновляться официальными источниками.

Мнения, цитаты, внешние ссылки, изображения и иные материалы, использованные в публикации, могут принадлежать их авторам или правообладателям. По вопросам авторских прав, уточнения информации или внесения исправлений просим обращаться в редакцию.

Материал не является юридической, финансовой, медицинской или иной профессиональной консультацией. Перед принятием значимых решений рекомендуется обращаться к официальным источникам или профильным специалистам.

Google представила TabFM: прогнозы по таблицам без дообучения

Почему таблицы остаются сложной задачей для ИИ

Как модель читает строки и столбцы

Почему обучение прошло на синтетических таблицах

Что показал рейтинг TabArena

Где заканчивается обещание «без обучения»

Открытый код, но не полностью открытые условия

Что TabFM может изменить на практике

Комментарии к статье

Оставьте комментарий Отменить ответ

Почему таблицы остаются сложной задачей для ИИ

Как модель читает строки и столбцы

Почему обучение прошло на синтетических таблицах

Что показал рейтинг TabArena

Где заканчивается обещание «без обучения»

Открытый код, но не полностью открытые условия

Что TabFM может изменить на практике

Комментарии к статье

Оставьте комментарий Отменить ответ

Все 12 китайских ИИ-моделей выбрали Германию перед поражением от Парагвая

Искусственный интеллект переписывает правила игры: итоги сентября 2025

Meta представила Brain2Qwerty v2 для декодирования набираемого текста по сигналам мозга

СМИ: глава Anthropic призвал лидеров G7 не дробить подходы к регулированию ИИ