🦭 SEAL — ИИ, который сам генерирует данные для своего обучения
Ученые из MIT разработали ИИ-систему SEAL (Self-Adapting Language Models), которая может улучшать себя, самостоятельно генерируя новые данные для дообучения.
Идея в том, чтобы тренировать модель не на «сырых» текстах, а дать ей возможность обработать их для лучшего запоминания и применения. Разработчики сравнивают нейросеть со студентом: вместо того чтобы зубрить лекции, полезнее делать конспекты, строить наглядные схемы и оставлять пояснения на полях.
Как это работает?
1️⃣ Модель получает новый для нее контекст и на его основе создает «самоисправление». Исходный датасет структурируется, подбираются настройки и инструкции для дальнейшего обучения.
2️⃣ На основе этой инструкции модель дообучается и тестируется. Если самоисправление приводит к улучшению результатов, то оно будет применяться в следующих циклах для генерации новых инструкций.
3️⃣ Так, методом проб и ошибок, модель не только становится «умнее», но и эффективнее улучшает себя.
Идею проверили на задачах, требующих абстрактного мышления. Базовая модель Llama-3.2-1B, которая изначально не могла решить ни одной задачи, применяя подход SEAL, добилась успеха в 72,5% тестов.
💡 Ценность подобных методов не только в увеличении мощности ИИ-моделей, но и в более эффективном использовании обучающих данных, которые уже в дефиците. Аналитики Epoch AI прогнозируют, что между 2026 и 2032 годами у нас иссякнут данные для тренировки нейросетей — системы наподобие SEAL могут стать одним из решений проблемы.
👋 Подпишитесь на Hi, AI!
#новости #наука