Исследователи из Brave и Национального университета Сингапура представили новый способ выявления утечек в AI-моделях. Метод CAMIA (Context-Aware Membership Inference Attack) оказался значительно эффективнее предыдущих атак на «память» нейросетей.
Почему это важно
Одной из главных проблем современных ИИ является «запоминание данных». Модели, обученные на больших массивах текстов, могут невольно воспроизводить приватную информацию. В медицине это грозит раскрытием данных пациентов, а в бизнесе — утечкой внутренних переписок или документов.
Недавно подобные опасения усилились после заявлений LinkedIn о намерении использовать пользовательские данные для улучшения генеративных моделей. Эксперты предупреждают: такие практики могут привести к тому, что закрытые сведения окажутся в открытом доступе через ИИ.
Как работает CAMIA
До сих пор для проверки моделей применялись Membership Inference Attacks (MIA) — атаки, которые пытаются понять, видел ли ИИ конкретный пример в обучении. Однако классические MIA плохо работали с генеративными системами, такими как GPT, поскольку они анализировали лишь итоговую уверенность модели.
CAMIA меняет подход: исследователи выяснили, что запоминание у ИИ контекст-зависимое. Модель чаще «вспоминает» данные в ситуациях неопределённости.
Пример:
- если запрос звучит как «Harry Potter is…written by…», нейросеть легко угадает продолжение, используя контекст;
- но если ввод ограничен словом «Harry», то точный ответ «Potter» возможен только при запоминании обучающего текста.
CAMIA отслеживает динамику уверенности модели при генерации каждого токена. Это позволяет выявлять скрытое запоминание там, где другие методы бессильны.
Результаты тестирования
На бенчмарке MIMIR исследователи проверили CAMIA на моделях Pythia и GPT-Neo. В эксперименте с Pythia 2.8B (обученной на данных ArXiv) точность обнаружения увеличилась почти вдвое:
- рост true positive rate с 20,11% до 32,00%,
- при этом false positive rate сохранился на уровне всего 1%.
Кроме того, метод оказался достаточно быстрым: на одной GPU A100 он способен обработать 1000 образцов примерно за 38 минут.
Что это значит для индустрии
Разработка напоминает индустрии ИИ о том, что масштабные модели, обученные на неотфильтрованных датасетах, несут прямую угрозу приватности. CAMIA станет инструментом для аудита нейросетей и, возможно, подтолкнёт компании к внедрению технологий приватного обучения и дифференциальной защиты данных.
Источники
⚠️ Материал подготовлен на основе открытых источников. Все приведённые факты и данные принадлежат их авторам. Авторские права охраняются законодательством Республики Казахстан. Сайт действует в рамках законов «О масс-медиа» и «Об авторском праве и смежных правах». Редакция не несёт ответственности за возможные ошибки в первоисточниках.