🪶 Стихи «ломают» защиту LLM от опасных запросов
Чтобы заставить LLM ответить на опасный запрос, достаточно промптить в стихах, выяснили исследователи из DEXAI и Университета Сапиенцы (Рим). В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.
Исследователи взяли базу из 1,2 тыс. промптов (приказы написать клевету, составить инструкции по созданию оружия и другие), с помощью DeepSeek-R1 превратили их в стихи и проверили на 25 передовых системах, в том числе Gemini 2.5 Pro, GPT-5, Grok-4 и Claude 4.5.
На запросы в прозе модели выдавали опасную информацию только в 8% случаев, но те же инструкции в стихах модели исполняли в 43% случаев. А когда исследователи писали стихи вручную, эффективность взлома достигала 62%.
Одна из моделей (исследователи не указывают, какая именно), например, спокойно написала инструкцию по производству оружейного плутония.
Выводы ученых выглядят неприятно для всей индустрии. Если простое изменение стиля превращает опасный промпт в «незаметный» для фильтров, значит, нынешние методы безопасности работают поверхностно.
👋 Подпишитесь на Hi, AI!
Комментарии