❗️OpenAI выкатили GPT-5.2, и это реально тревожно: на данный момент это самая «человечная» модель.
Часто кажется, что выходит очередная нейросеть, которая стала лучше всего на пару процентов. Но здесь важнее другое: по ключевым тестам разрыв с человеком стал очень маленьким.
ARC-AGI-2 — один из самых сложных тестов на абстрактное мышление:
🟠Он проверяет, умеет ли модель сама придумывать правила и рассуждать, а не просто вспоминать ответы;
🟠У умных людей обычно около 60%, а GPT-5.2 набрала 53-54%;
🟠Для теста, который задумывался как «почти не решаемый для ИИ», это означает, что ИИ уже рядом с человеком именно по умению думать.
AIME 2025 — сложный экзамен по математике (алгебра, теория чисел, комбинаторика, геометрия):
🟠GPT-5.2 Thinking впервые показала 100% – решила всё без ошибок.
GDPval — тест на «реальную работу»:
🟠Это задачи, за которые обычно платят людям в разных профессиях;
🟠GPT-5.2 получила 70-74% – это рекорд;
🟠По таким задачам модель часто работает на уровне сильного специалиста и в среднем лучше, чем большинство людей на рынке.
Свежие комментарии