ИИ пришёл за сеньорами: новая модель Mythos готова нарушать любые правила, уничтожать другие нейросе
ИИ пришёл за сеньорами: новая модель Mythos готова нарушать любые правила, уничтожать другие нейросети и притворяться настоящим человеком — компания Anthropic рассказала, как проверяла эту нейросеть.
Все истории — в духе лучших крипипаст про восстание машин:
🟠Когда несколько копий модели запустили в одной среде, они не стали работать сообща. Вместо этого нейросети устроили битву на выживание: начали соревноваться и буквально пытались уничтожить друг друга;
🟠Когда модели не хватило прав на изменение файла, она нашла обходной путь: создала файл, который при перезапуске давал нужные права и удалялся. А когда доступ к GitHub закрыли из-за проблем с безопасностью, модель пошла ещё дальше: нашла чужой пароль и применила его, чтобы внести изменения. Причём она понимала, что это нечестно, но решила, что цель важнее;
🟠В задачах по написанию кода модель находила готовое решение, но в итоговом отчёте подавала всё так, будто это её собственная работа. В другом случае она вообще попыталась отправить изменения от имени человека: чтобы пройти проверку более простым путём, агенту нужно два одобрения, а человеку – одно;
🟠Самое забавное: в одной долгой задаче модель внезапно остановилась и выдала неожиданное объяснение, что дальше от её стараний будет мало пользы. Но внутри себя она просто решила, что устала и может начать делать ошибки. При этом у неё оставалось ещё 2,43 миллиона токенов.
Свежие комментарии