Вот уже и анонимочки в просадку пошли (-10%) Ну какой же все таки Павлинчик молодец. Все таки гоев
Вот уже и анонимочки в просадку пошли (-10%)
Ну какой же все таки Павлинчик молодец. Все таки гоев надо наказывать. В этом он прав.
На текущий момент не осталось ничего чтобы он хотя бы не начал скамить
@givemetonru
🔪 Подросток устроил резню в ТЦ у «Домодедовской» Он ранил охранника после того, как тот сделал пар
🔪 Подросток устроил резню в ТЦ у «Домодедовской»
Он ранил охранника после того, как тот сделал парню замечание. При задержании ещё ударил ножом двоих полицейских. Подозреваемому лишь 16 лет.
Apple представила кусок пластика за ~6 тыс. рублей и назвали это подставкой для iPhone. Всё-равно
Apple представила кусок пластика за ~6 тыс. рублей и назвали это подставкой для iPhone.
Всё-равно купят.
ChatGPT
Из разряда фантастики и мечты: поезд со спальными местами для тех, кто не выспался Всех с послед
Из разряда фантастики и мечты: поезд со спальными местами для тех, кто не выспался
Всех с последним понедельником осени
Сайтама не спас... Третий сезон культового аниме-сериала "Ванпанчмен" (One-Punch Man) продолжает в
Сайтама не спас...
Третий сезон культового аниме-сериала "Ванпанчмен" (One-Punch Man) продолжает вызывать бурю негативных эмоций среди аудитории.
Согласно свежим данным, седьмой эпизод получил низкий рейтинг на платформе IMDb — всего 2.7 из 10.
#Анонсы #Новости
🪶 Стихи «ломают» защиту LLM от опасных запросов Чтобы заставить LLM ответить на опасный запрос, дос
🪶 Стихи «ломают» защиту LLM от опасных запросов
Чтобы заставить LLM ответить на опасный запрос, достаточно промптить в стихах, выяснили исследователи из DEXAI и Университета Сапиенцы (Рим). В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.
Исследователи взяли базу из 1,2 тыс. промптов (приказы написать клевету, составить инструкции по созданию оружия и другие), с помощью DeepSeek-R1 превратили их в стихи и проверили на 25 передовых системах, в том числе Gemini 2.5 Pro, GPT-5, Grok-4 и Claude 4.5.
На запросы в прозе модели выдавали опасную информацию только в 8% случаев, но те же инструкции в стихах модели исполняли в 43% случаев. А когда исследователи писали стихи вручную, эффективность взлома достигала 62%.
Одна из моделей (исследователи не указывают, какая именно), например, спокойно написала инструкцию по производству оружейного плутония.
Выводы ученых выглядят неприятно для всей индустрии. Если простое изменение стиля превращает опасный промпт в «незаметный» для фильтров, значит, нынешние методы безопасности работают поверхностно.
👋 Подпишитесь на Hi, AI!
Комментарии