🏫 Почему лучшие нейросети не могут решить детские задачки?

Исследователи MathArena решили «отправить ИИ в школу» — и дать ему задачи из популярной во всем мире детской олимпиады «Кенгуру».

Чтобы исключить «утечку» данных, взяли албанскую версию заданий за март 2025 года — 168 задач от 1-го до 12-го класса. Их перевели на английский и представили в виде одного изображения — с текстом, рисунком и вариантами ответов, как на реальной олимпиаде. Это заставило модель «смотреть глазами», а не просто читать текст.

Тестировали восемь моделей, включая закрытые GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Grok 4, а также две открытые — GLM-4.5V и Qwen3-VL-235B.

📉 Неожиданный результат

Казалось бы, чем старше ученики, тем сложнее задачи — и тем труднее моделям. Однако из задач для 1-2 классов модели решили от 32% до 69%, а для 11-12 классов — до 95%!

В младших классах 80% задач требуют анализа картинки — определить цвет сектора или посчитать кубики. У старших классов большинство задач — текстовые. Но дело не только в изображениях: даже если из набора задач убрать вопросы с картинками, разрыв сохраняется.

Корень ошибок LLM кроется в типе мышления. Для малышей важны низкоуровневые навыки — зрительное восприятие и пространственное воображение, которые трудно даются нейросетям. Для старших — абстрактные рассуждения, где ИИ чувствует себя как дома. Это наглядный пример парадокса Моравека: машинам легче взять интеграл, чем отличить зеленый треугольник от синего квадрата. И чтобы «понимать мир глазами», моделям нужно развивать не интеллект, а восприятие.

👋 Подпишитесь на Hi, AI!

🏫 Почему лучшие нейросети не могут решить детские задачки?
Исследователи MathArena решили «отправит

Комментарии

Читайте также:

Мошенники начали разводить россиян, которые ищут работу.

Скамеры зовут жертв на собеседование в Zoom и просят войти через рабочий iCloud, который сами же предоставляют. Стоит ввести данные — и телефон моментально блокируется, после чего злоумышленники требуют выкуп.

Предупреди знакомого мамонта.

Мошенники начали разводить россиян, которые ищут работу.
Скамеры зовут жертв на собеседование в Zo

Известного кинорежиссера и кинооператора Сергея Политика зарезали возле его дома в Москве. По информации Mash, всё произошло во дворе на улице Сталеваров, когда 56-летний оператор сделал замечание мужчине. После словесной перепалки неизвестный напал на него…

Известного кинорежиссера и кинооператора Сергея Политика зарезали возле его дома в Москве. По инфор

😔 48 подростков-зацеперов пострадали за 9 месяцев этого года на МЖД

Больше всего травмы получали ребята в возрасте от 11 до 14 лет. Чаще всего случаи зацепинга фиксируются на Ярославском, Казанском и Горьковском направлениях МЖД.

Короче завтра прост 10к тон на 20 аккаунтов раскидываем
И забираем 20 медведей
тон падает до 1$
И можно в ламбе стреляться

Плот-твист года: британский Channel 4 выпустил часовую документалку про ИИ — в самом конце ведущая раскрыла, что ее создали нейронкой.

Никто не догадался о подмене, пока Айша Габан сама не призналась:
«ИИ затронет жизнь каждого в ближайшие несколько лет. И в итоге некоторые останутся без работы... Возможно, даже телевизионные ведущие, как я. Потому что меня не существует».

Девушке сгенерировали голос и внешность. Реальными были только съемки локаций, ее просто наложили на эти кадры.

Фильм можно бесплатно посмотреть тут. Понадобится британский IP.

ChatGPT

Еще посты

Свежие комментарии