Жаңалықтар

Google TabFM моделін таныстырды: кестелер бойынша қосымша оқытусыз болжам

TabFM белгіленген жолдарды контекст ретінде алып, модель салмақтарын өзгертпей болжам жасайды. Архитектурасын, TabArena нәтижесін және шектеулерін талдаймыз.

Автор admin
1 минут оқу

Маунтин-Вью, АҚШ. Google Research 30 маусымда кестелік деректерді жіктеу мен регрессияға арналған TabFM іргелі моделін таныстырды. Google зерттеу бөлімшесінің хабарлауынша, модель жаңа кестеде салмақтарын бөлек оқытпай, белгілерді қолмен құрастырмай және гиперпараметрлерді іріктемей жұмыс істей алады.

Бұл TabFM «мүлде оқытылмаған» дегенді білдірмейді. Модель алдын ала жүздеген миллион синтетикалық деректер жиынында оқытылған. Бұл жердегі zero-shot ұғымы нақты кестеге көшкенде модель параметрлері жаңартылмайтынын білдіреді: белгіленген мысалдар инференс кезінде тікелей контекст ретінде беріледі.

Неліктен кестелер ЖИ үшін әлі де күрделі

Сату, клиент өтінімдері, транзакциялар, қойма қалдықтары және тексеру нәтижелері көбіне мәтін немесе сурет емес, жолдар мен бағандар түрінде сақталады. Мұндай деректерде градиенттік бустинг, кездейсоқ орман және басқа арнайы алгоритмдер ұзақ уақыт бойы негізгі құрал болды.

Дәстүрлі жоба белгілерді таңдап, бос мәндер мен санаттарды өңдеуді, бірнеше модельді оқытып, баптауды және нәтижені бөлек іріктемеде тексеруді талап етеді. TabFM осы циклді қысқартуды көздейді: бір алдын ала оқытылған модель жаңа міндеттің заңдылығын белгілі жауаптары бар мысалдардан анықтауы керек.

КезеңДәстүрлі кестелік MLTabFM
Міндетті дайындауӘр жиынға жеке пайплайнОқу жолдары контекст ретінде беріледі
Модель параметрлеріОқыту кезінде өзгередіЖаңа кестеде өзгермейді
БаптауГиперпараметрлерді іздеу жиі қажетНегізгі режим — бір тікелей өту
Сапаны тексеруМіндеттіСондай-ақ міндетті
Жұмыс барысындағы айырмашылық. TabFM нақты кестеге арналған оқытуды қысқартады, бірақ деректер мен болжам сапасын тексеруді жоймайды.
TabFM жұмысының төрт кезеңі: контекст, жолдар мен бағандарға назар аудару, жолдарды сығымдау және болжам
TabFM жұмысының жеңілдетілген схемасы. Google Research архитектурасының сипаттамасы негізінде Cifrum.kz әзірлеген визуализация.

Модель жолдар мен бағандарды қалай оқиды

TabFM кестенің белгіленген бөлігін және жауап қажет жолдарды біртұтас кіріс ретінде қабылдайды. Архитектураның алғашқы блогы назар аударуды бағандар мен жолдар арасында кезекпен қолданады: модель белгілер арасындағы байланысты және мысалдардың ұқсастығын іздейді.

Осы тақырыпта:  IT Quest Қазақстанда іске қосылады: қатысушыларды технологиялар мен жасанды интеллект бойынша тапсырмалар күтеді

Содан кейін әр жол туралы ақпарат тығыз векторлық көрініске сығымдалады. Соңғы блок — 24 қабатты себептік ICL-трансформер — осы векторлардың тізбегін өңдеп, класс немесе сандық мән береді. TabFM 1.0.0 модель карточкасына сәйкес, архитектура сандық және санаттық бағандарды қолдайды.

Scikit-learn-мен үйлесімді интерфейсте fit() әдісі әлі де қолданылады. Бірақ TabFM ресми репозиторийі бұл шақыру іргелі модель параметрлерін қайта оқытпай, санат кодтағыштары мен сандық масштабтауды дайындайтынын көрсетеді.

Неліктен синтетикалық кестелер таңдалды

Мәтіндік және визуалды модельдер үшін ірі ашық жинақтар бар, ал өнеркәсіптік кестелер көбіне коммерциялық схемалар мен жеке деректерді қамтиды. Google бұл тапшылықты құрылымдық себептік модельдер көмегімен жүздеген миллион синтетикалық жиынды динамикалық түрде генерациялау арқылы айналып өтті.

Бұл тәсіл нақты клиенттік базаларды пайдаланбай, модельге белгілер арасындағы көптеген тәуелділікті көрсетуге мүмкіндік береді. Дегенмен синтетикалық орта нақты саладағы сирек оқиғаларды, мінез-құлықтың өзгеруін немесе ығысуларды толық қайталайтынына кепілдік бермейді.

TabArena рейтингі нені көрсетті

Google модельді ашық TabArena бенчмаркінде бағалады: жіктеуге арналған 38 және регрессияға арналған 13 деректер жиыны, олардың көлемі 700-ден 150 мың жолға дейін. Жүйе әдістерді жұппен салыстыру нәтижесі бойынша Elo рейтингін есептейді.

Жіктеу және регрессия бойынша TabArena-дағы алты жетекші модельдің Elo рейтингі көрсетілген график
TabArena жіктеу және регрессия Elo рейтингі. Google Research графигінің деректері негізінде Cifrum.kz әзірлеген визуализация; жоғары балл тиісті міндет ішіндегі күшті нәтижені білдіреді.

Google жариялаған графикте негізгі TabFM жіктеуде 1727, регрессияда 1940 Elo ұпайын алып, екі топта да екінші орынға шықты. TabFM-Ensemble нұсқасы тиісінше 1815 және 2125 ұпаймен бірінші болды.

Бірақ ансамбльдік нұсқаны қарапайым іске қосумен теңестіруге болмайды. Ол 32 конфигурацияны теріс емес ең кіші квадраттар әдісімен біріктіреді, қиылысқан және SVD белгілерін, ал жіктеуде Платт калибрлеуін қолданады. Негізгі TabFM баптаусыз және кросс-валидациясыз бір тікелей өтуде болжам жасайды.

Elo — салыстырмалы көрсеткіш, ал TabArena үнемі жаңарып отырады. Сондықтан бір кесіндідегі көшбасшылық әр бизнес міндетінде үздік нәтиже болатынын дәлелдемейді. ЖИ модельдерінің арнайы сынақтарындағы сияқты, нәтиже деректер құрамына, метрикаға және салыстыру шарттарына тәуелді.

Осы тақырыпта:  Meta Brain2Qwerty v2 жүйесін таныстырды: теріліп жатқан мәтінді ми сигналдарынан декодтау
Инфографика: 51 деректер жиыны, 700-ден 150 мыңға дейінгі жол, 10 классқа және 500 белгіге дейін
TabArena бағалау ауқымы және TabFM 1.0.0 жарияланған шектеулері. Дереккөздер: Google Research және Hugging Face модель карточкасы.

«Оқытусыз» уәдесінің шегі қайда

  • Белгіленген мысалдар қажет. TabFM міндетті бос жерден таппайды: белгілі жауаптары бар тарихи жолдар контекстке кіреді.
  • Жад шығыны контекстпен бірге өседі. Оқу жолдарының барлығы инференс кезінде модельге беріледі.
  • Класс саны шектеулі. Қазіргі нұсқа ең көбі 10 класты қолдайды.
  • Өте кең кестелер тәуекел аймағында. Модель 500 белгіге дейінгі кестелерге оңтайландырылған.
  • Жоғары тәуекелді шешімдер жеке тексеруді талап етеді. Модельді нақты міндетке ұқсас бөлек деректерде бағалау қажет.

Болжамды кепілдік емес, ықтималдық бағасы ретінде қарастырған жөн. 12 ЖИ моделінің футбол нәтижесін болжауда бірдей қателесуі қисынды есеп пен нақты оқиға арасындағы айырмашылықты айқын көрсетті.

Код ашық, бірақ пайдалану шарттары толық ашық емес

Google TabFM кодын GitHub-та Apache 2.0 лицензиясымен жариялап, JAX және PyTorch салмақтарын ұсынды. Ал модель салмақтары жеке коммерциялық емес лицензиямен беріледі. Карточкада TabFM Google ресми түрде қолдайтын өнім емес екені де көрсетілген.

Компания технологияны BigQuery-ге енгізуді жоспарлап отыр. Анонсқа сәйкес, алдағы апталарда пайдаланушылар жіктеу мен регрессияны AI.PREDICT SQL командасымен іске қоса алуы тиіс. Функция нақты қолжетімді болғанға дейін бұл әзірше жарияланған жоспар болып қалады.

TabFM тәжірибеде нені өзгерте алады

Негізгі ықтимал әсері — алғашқы прототиптің жылдамдығы. Талдаушы толық ML-пайплайн құрмас бұрын кестеде клиенттің кетуін, алаяқтық тәуекелін, бағаны немесе сұранысты болжауға жеткілікті белгі бар-жоғын тез тексере алады. Бұл шағын командалар үшін болжамдық аналитикаға кіру шегін төмендетуі мүмкін.

Бірақ соңғы шешім бастапқы деректер сапасын, нысаналы айнымалының ағып кетуін, іріктеме ығысуын, қате құнын және уақыт бойынша өзгерісті ескеруі тиіс. TabFM инженерлік жұмыстың бір бөлігін азайтады, алайда міндетті дұрыс қою жауапкершілігін жоймайды.

Дереккөздер: Google Research анонсы, TabFM репозиторийі, TabFM 1.0.0 модель карточкасы, TabArena бенчмаркі.

Осы тақырыпта:  X-59 NASA: 2026 жылғы Quesst миссиясы аясындағы сынақтар

Басты сурет Cifrum.kz үшін жасанды интеллект көмегімен жасалған тұжырымдамалық редакциялық иллюстрация. Графиктер мен схемаларды Cifrum.kz аталған дереккөздердің мәліметтері бойынша әзірледі.

Мақалаға пікірлер

Leave a Comment

Сіздің email мекенжайыңыз жарияланбайды. Міндетті өрістер * белгісімен белгіленген

Жоғарыға жылжытыңыз