ArtPrompt - атака на AI-системы, позволяющая обойти фильтры при помощи ASCII-картинок | LinuxCenter

Дата: 2024-03-04

Группа исследователей из Вашингтонского, Иллинойсского и Чикагского университетов выявила новый метод обхода ограничений по обработке опасного контента в AI-чатоботах, построенных на основе больших языковых моделей (LLM). Атака основана на том, что языковые модели GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) и Llama2 (Meta) успешно распознают и учитывают в запросах текст, оформленный в виде ASCII-графики. Таким образом, для обхода фильтров опасных вопросов оказалось достаточно указать запрещённые слова в виде ASCII-картинки. Источник: opennet.ru

ArtPrompt - атака на AI-системы, позволяющая обойти фильтры при помощи ASCII-картинок

Последние новости: