💬 SciArena — выберите лучший ИИ для науки
Институт ИИ Пола Аллена запустил SciArena — аналог Chatbot Arena, но для соревнования нейросетей в научных задач. Для учебы или исследования можно бесплатно получить сразу два проверенных ответа со ссылками на научные источники.
👍 Как проводится оценка?
Платформа использует поиск AI2 ScholarQA, чтобы найти релевантные запросу статьи в базе Semantic Scholar.
Затем две случайные модели получают одинаковые данные: вопрос и найденные статьи. Чат-боты должны написать развернутый ответ, подкрепляя ссылкой каждое утверждение.
Чтобы исключить предвзятость, ответы очищают от особенностей оформления и выдают в едином виде. После этого пользователь читает оба текста и голосует за лучший.
🥇 Кто побеждает в гонке?
Сейчас в рейтинге SciArena участвуют 23 модели от OpenAI, Google, Anthropic, Alibaba и других компаний. Перед запуском 102 эксперта провели более 13 тыс. состязаний, чтобы построить первичный рейтинг.
Лидирует OpenAI o3: она стабильно показывает лучшие результаты во всех категориях — от инженерии до медицины. В тройке также Claude 4 Opus и Gemini 2.5 Pro.
➡️ Платформа доступна для всех желающих здесь. Задать вопрос можно на русском, но некоторые модели отвечают только по-английски.
👋 Подпишитесь на Hi, AI!
#новости #наука