SynthID от DeepMind: открытое решение для маркировки текста, генерируемого ИИ

synthID deepmind text generator watermark

Компания DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста, расширив тем самым свою экосистему идентификации ИИ-контента. Решение уже доступно в библиотеке Hugging Face Transformers v4.46.0+. SynthID Text  дополняет ранее выпущенные инструменты Deepmind для изображений, аудио и видео.

В условиях, когда генеративный AI создает беспрецедентные объемы контента, надежная система водяных знаков становится критически важной для проверки происхождения контента и борьбы с дезинформацией. SynthID предлагает готовое решение для интеграции в LLM-пайплайны.

Метод был интегрирован в модель Google Gemini и протестирован на 20 миллионах ответах. При этом для обучения модели требуется всего несколько тысяч примеров, что делает ее практичной для внедрения в энтерпрайзы.

Метод SynthID

SynthID модифицирует процесс генерации токенов с помощью псевдослучайной g-функции. В частности, когда LLM генерирует текст, она предсказывает каждый следующий токен на основе распределения вероятностей. Затем SynthID корректирует эти вероятностные оценки, используя настраиваемые параметры, которые балансируют силу водяного знака и качество результата.

Технические детали

Ключевые параметры конфигурации включают:

  • Keys: список случайных целых чисел, определяющих слои водяных знаков;
  • ngram_len: значение (по умолчанию 5) обеспечивает баланс между обнаруживаемостью и устойчивостью;
  • sampling_table_size: рекомендуется минимум 2^14 для несмещенной g-функции;
  • context_history_size: управляет водяными знаками повторяющихся n-граммов.

Модельь использует байесовский детектор, который выдает три состояния: с водяным знаком, без водяного знака или неопределенное состояние. При этом пороги обнаружения можно настраивать для достижения определенных показателей ложноположительных и ложноотрицательных срабатываний. Следовательно, модели с одним токенизатором могут использовать общие конфигурации водяных знаков и детекторы при условии обучения на примерах всех участвующих моделей.

Варианты внедрения SynthID

Организации могут выбрать один из вариантов:

  • Полностью приватный: без доступа к детектору;
  • Полуприватный: доступ к детектору только через API;
  • Публичный: открытое распространение детектора.

Известные ограничения

Несмотря на устойчивость к базовым текстовым модификациям и частичному перефразированию, SynthID показывает низкую эффективность при работе с фактологическими ответами и полностью переписанным контентом. Кроме того, перевод на другие языки существенно влияет на точность детектора.

SynthID представляет собой значительный прорыв в области водяных знаков для LLM, предлагая готовое к внедрению решение с гибкими вариантами и четкими компромиссами между безопасностью и удобством использования. Наконец, его интеграция в библиотеку Transformers делает его доступным для сообщества AI-разработчиков.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt