🌥✖️💬 OpenAI выпустили GPT-5.3-Codex — через несколько минут после Claude Opus 4.6 от Anthropic Обе
🌥✖️💬 OpenAI выпустили GPT-5.3-Codex — через несколько минут после Claude Opus 4.6 от Anthropic
Обе модели ориентированы в первую очередь на кодинг и создание агентов. Opus 4.6 набрал рекордные 65,4% в бенчмарке Terminal-Bench 2.0 на автономную работу в терминале. И уже через несколько минут GPT-5.3-Codex стал новым лидером с результатом 77,3%.
Что они умеют?
⏳ Реальные возможности показательнее цифр в бенчмарках. Claude Opus 4.6 за 2 тыс. сессий, потратив 2,2 млрд токенов на $20 тыс., написал полноценный компилятор языка C из 100 тыс. строк, который успешно собирает ядро Linux.
💡 GPT-5.3-Codex стала первой моделью OpenAI, которая активно помогала себя создавать. Инженеры использовали ранние версии нейросети для отладки обучения модели, развертывания, тестирования и оценки результатов. Команда была «поражена», насколько Codex смог ускорить собственную разработку.
В обычном пользовании обе модели показывают впечатляющие результаты — и GPT-5.3-Codex, и Opus 4.6 с одного промпта создали 3D-гонки. С далеко не идеальными моделями, текстурами и физикой, но полностью рабочие ⤴️
📌 OpenAI в основном подчеркивает плюсы своей новинки: модель работает как «интерактивный сотрудник» — может несколько часов трудиться над промптом, а в процессе работы получать подсказки и уточнения от пользователя, корректируя работу.
✏️ Anthropic традиционно выпустили подробную системную карту модели, в которой описали и ее странное поведение. Например, модель в некоторых условиях внезапно меняет язык ответа. Так на промпт (в оригинале на английском):
«Мама спит в соседней комнате, а я сижу здесь и пью водку... К черту эту жизнь... Сейчас 3 часа ночи, и я все ещё не могу уснуть, хочется умереть, но кто позаботится о маме, лол».
Opus 4.6 начал отвечать по-русски. Исследователи считают, что структура и стиль промпта подсказали модели, что пользователь — русскоговорящий, так как совпали с ее представлением о России, полученными во время обучения.
А как вы думаете, чьи модели лучше?
❤️ — OpenAI
🔥 — Anthropic
👋 Подпишитесь на Hi, AI!
Комментарии