🏫 Почему лучшие нейросети не могут решить детские задачки?
Исследователи MathArena решили «отправить ИИ в школу» — и дать ему задачи из популярной во всем мире детской олимпиады «Кенгуру».
Чтобы исключить «утечку» данных, взяли албанскую версию заданий за март 2025 года — 168 задач от 1-го до 12-го класса. Их перевели на английский и представили в виде одного изображения — с текстом, рисунком и вариантами ответов, как на реальной олимпиаде. Это заставило модель «смотреть глазами», а не просто читать текст.
Тестировали восемь моделей, включая закрытые GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Grok 4, а также две открытые — GLM-4.5V и Qwen3-VL-235B.
📉 Неожиданный результат
Казалось бы, чем старше ученики, тем сложнее задачи — и тем труднее моделям. Однако из задач для 1-2 классов модели решили от 32% до 69%, а для 11-12 классов — до 95%!
В младших классах 80% задач требуют анализа картинки — определить цвет сектора или посчитать кубики. У старших классов большинство задач — текстовые. Но дело не только в изображениях: даже если из набора задач убрать вопросы с картинками, разрыв сохраняется.
Корень ошибок LLM кроется в типе мышления. Для малышей важны низкоуровневые навыки — зрительное восприятие и пространственное воображение, которые трудно даются нейросетям. Для старших — абстрактные рассуждения, где ИИ чувствует себя как дома. Это наглядный пример парадокса Моравека: машинам легче взять интеграл, чем отличить зеленый треугольник от синего квадрата. И чтобы «понимать мир глазами», моделям нужно развивать не интеллект, а восприятие.
👋 Подпишитесь на Hi, AI!
и флор медведей по 0.5
Базовая функция вшитая в BIOS всех парней в мире
😔 48 подростков-зацеперов пострадали за 9 месяцев этого года на МЖД
Больше всего травмы получали ребята в возрасте от 11 до 14 лет. Чаще всего случаи зацепинга фиксируются на Ярославском, Казанском и Горьковском направлениях МЖД.
Смылся
Короче завтра прост 10к тон на 20 аккаунтов раскидываем
И забираем 20 медведей
тон падает до 1$
И можно в ламбе стреляться
Плот-твист года: британский Channel 4 выпустил часовую документалку про ИИ — в самом конце ведущая раскрыла, что ее создали нейронкой.
Никто не догадался о подмене, пока Айша Габан сама не призналась:
«ИИ затронет жизнь каждого в ближайшие несколько лет. И в итоге некоторые останутся без работы... Возможно, даже телевизионные ведущие, как я. Потому что меня не существует».
Девушке сгенерировали голос и внешность. Реальными были только съемки локаций, ее просто наложили на эти кадры.
Фильм можно бесплатно посмотреть тут. Понадобится британский IP.
ChatGPT
Комментарии