ИИ и машинное обучение

Google представила TabFM: прогнозы по таблицам без дообучения

TabFM получает размеченные строки как контекст и делает прогноз без изменения весов модели. Разбираем архитектуру, результаты TabArena, лицензию и ограничения.

Автор admin
1 мин чтения

Маунтин-Вью, США. Google Research 30 июня представила TabFM — фундаментальную модель для классификации и регрессии на табличных данных. Модель может работать с новой таблицей без отдельного обучения её весов, ручного проектирования признаков и перебора гиперпараметров, говорится в сообщении исследовательского подразделения Google.

Это не означает, что TabFM «никогда не училась». Модель заранее обучили на сотнях миллионов синтетических наборов данных. Слово zero-shot в данном случае означает другое: при переходе к конкретной таблице параметры модели не обновляются. Размеченные примеры передаются ей прямо во время инференса и становятся контекстом для прогноза.

Почему таблицы остаются сложной задачей для ИИ

Продажи, заявки клиентов, транзакции, складские остатки и результаты обследований обычно хранятся не как текст или изображения, а в строках и столбцах. Для таких данных десятилетиями применяются градиентный бустинг, случайные леса и другие специализированные алгоритмы.

Классический проект требует выбрать признаки, обработать пропуски и категории, обучить несколько вариантов модели, подобрать настройки и проверить их на отложенной выборке. TabFM пытается сократить этот цикл: одна предварительно обученная модель должна распознать закономерность новой задачи по примерам, которые ей показали вместе с неизвестными строками.

ЭтапОбычный табличный MLTabFM
Подготовка задачиОтдельный пайплайн для каждого набораОбучающие строки передаются как контекст
Параметры моделиОбновляются при обученииНе меняются на новой таблице
НастройкаЧасто нужен поиск гиперпараметровБазовый режим — один прямой проход
Проверка качестваОбязательнаТакже обязательна
Разница в рабочем процессе. TabFM сокращает обучение под конкретную таблицу, но не отменяет проверку данных и качества прогноза.
Схема из четырёх этапов работы TabFM: контекст, внимание по строкам и столбцам, сжатие строк и прогноз
Упрощённая схема работы TabFM. Редакционная визуализация Cifrum.kz на основе описания архитектуры Google Research.

Как модель читает строки и столбцы

TabFM получает размеченную часть таблицы и строки, для которых нужен ответ, как единый ввод. Первый блок архитектуры попеременно применяет внимание по столбцам и строкам: модель ищет связи между признаками и сравнивает примеры между собой.

Материал по теме:  Компьютерный вирус троянский конь: почему он опаснее, чем кажется.

Затем информация каждой строки сжимается в плотное векторное представление. Последний блок — причинный ICL-трансформер из 24 слоёв — работает уже с последовательностью этих векторов и выдаёт класс или числовое значение. По данным карточки TabFM 1.0.0, архитектура поддерживает числовые и категориальные столбцы.

В совместимом со scikit-learn интерфейсе по-прежнему используется метод fit(), что может сбить с толку. Однако официальный репозиторий TabFM поясняет: этот вызов подготавливает кодировщики категорий и масштабирующие преобразования, а не переобучает параметры фундаментальной модели.

Почему обучение прошло на синтетических таблицах

Для текстовых и визуальных моделей доступны огромные открытые коллекции, тогда как промышленные таблицы часто содержат коммерческие схемы и персональные данные. Google обошла этот дефицит, динамически генерируя сотни миллионов синтетических наборов с помощью структурных причинных моделей.

Такой подход позволяет показать модели множество зависимостей между признаками, не используя реальные клиентские базы. Но это одновременно источник неопределённости: синтетический мир не гарантирует полного совпадения с редкими событиями, изменением поведения пользователей или смещениями в конкретной отрасли.

Что показал рейтинг TabArena

Google оценила модель на открытом бенчмарке TabArena: 38 наборах для классификации и 13 для регрессии, содержащих от 700 до 150 тысяч строк. Система рассчитывает рейтинг Elo по результатам попарных сравнений методов.

График рейтинга Elo шести ведущих моделей TabArena для классификации и регрессии
Рейтинг Elo для классификации и регрессии на TabArena. Редакционная визуализация Cifrum.kz по данным графика Google Research; более высокий балл означает более сильный результат внутри соответствующей задачи.

На опубликованном Google графике базовая TabFM получила 1727 баллов Elo в классификации и 1940 в регрессии, заняв второе место в обеих группах. Первой стала TabFM-Ensemble — 1815 и 2125 баллов соответственно.

Однако ансамблевый вариант нельзя приравнивать к самому простому запуску. Он объединяет 32 конфигурации при помощи неотрицательных наименьших квадратов, добавляет перекрёстные и SVD-признаки, а в классификации — калибровку Платта. Базовая TabFM делает прогноз одним прямым проходом без подбора настроек и кросс-валидации.

Материал по теме:  ОБНОВЛЯЙСЯ ИЛИ ПРОИГРАЕШЬ: ПОЧЕМУ ВАШИ ДАННЫЕ В ОПАСНОСТИ ПРЯМО СЕЙЧАС

Elo — относительный показатель, а TabArena является обновляемым бенчмарком. Поэтому лидерство на одном срезе не доказывает превосходство на каждой бизнес-задаче. Как показывают и другие тесты ИИ-моделей на специализированных заданиях, итог зависит от состава данных, метрики и условий сравнения.

Инфографика: 51 набор данных, от 700 до 150 тысяч строк, до 10 классов и оптимизация до 500 признаков
Масштаб оценки TabArena и заявленные границы TabFM 1.0.0. Источники: Google Research и карточка модели на Hugging Face.

Где заканчивается обещание «без обучения»

  • Нужны размеченные примеры. TabFM не угадывает задачу из пустоты: исторические строки с известными ответами входят в контекст.
  • Память растёт вместе с контекстом. Все обучающие строки передаются модели во время инференса.
  • Есть предел классов. Текущая версия поддерживает не более 10 классов.
  • Очень широкие таблицы — зона риска. Модель оптимизирована для таблиц до 500 признаков; на более широких качество может снижаться.
  • Высокорисковые решения требуют отдельной проверки. Google рекомендует оценивать модель на репрезентативной отложенной выборке перед применением.

Прогноз следует воспринимать как оценку вероятности, а не как гарантию. Недавний случай, когда 12 ИИ-моделей единогласно ошиблись в футбольном прогнозе, наглядно показывает разницу между правдоподобным расчётом и реальным исходом.

Открытый код, но не полностью открытые условия

Google опубликовала код TabFM на GitHub по лицензии Apache 2.0 и подготовила веса для JAX и PyTorch. При этом сами веса доступны по отдельной некоммерческой лицензии. В карточке также указано, что TabFM не является официально поддерживаемым продуктом Google.

Компания планирует встроить технологию в BigQuery. Согласно анонсу, в ближайшие недели пользователи должны получить возможность запускать классификацию и регрессию SQL-командой AI.PREDICT. До фактического появления функции это остаётся объявленным планом, а не уже доступной возможностью.

Что TabFM может изменить на практике

Главный потенциальный эффект — скорость первого прототипа. Аналитик сможет быстро проверить, есть ли в таблице сигнал для прогноза оттока, риска мошенничества, стоимости или спроса, прежде чем строить полноценный ML-пайплайн. Для небольших команд это может снизить порог входа в предиктивную аналитику.

Материал по теме:  Genesis AI представила универсального робота Eno: новое слово в автоматизации складов и домов

Но финальное решение по-прежнему должно учитывать качество исходных данных, утечки целевой переменной, смещение выборки, стоимость ошибки и изменения во времени. TabFM убирает часть инженерной рутины; ответственность за корректную постановку задачи она не убирает.

Источники: анонс Google Research, репозиторий TabFM, карточка модели TabFM 1.0.0, бенчмарк TabArena.

Главное изображение создано искусственным интеллектом для Cifrum.kz и является концептуальной редакционной иллюстрацией. Графики и схемы подготовлены Cifrum.kz по данным указанных источников.

Комментарии к статье

Оставьте комментарий

Ваш email-адрес не будет опубликован. Обязательные поля помечены *

Прокрутить наверх