Комментарии

Читайте также:

Илон Маск получит $1 трлн от инвесторов Tesla. Без этой выплаты он мог бы уйти с поста CEO, поэтому

Илон Маск получит $1 трлн от инвесторов Tesla. Без этой выплаты он мог бы уйти с поста CEO, поэтому акционерам пришлось ее одобрить.

Немного поясняющих цифр: состояние Илона Маска сейчас — $461 млрд, и он уже богатейший человек планеты. Если добавить еще $1 трлн, получится примерно ВВП Индонезии или Испании.

Для получения премии Маску нужно выпустить 20 млн машин, продать 1 млн роботов и поднять капитализацию Tesla до $8,5 трлн (то есть примерно в 5 раз). У него есть на это 10 лет.

В случае успеха это станет крупнейшей выплатой руководителю компании в истории

Илон Маск получит $1 трлн от инвесторов Tesla. Без этой выплаты он мог бы уйти с поста CEO, поэтому

🤔 Cache-to-Cache: Как модели могут общаться без слов и токенов Около года назад, Ьicrosoft научила

🤔 Cache-to-Cache: Как модели могут общаться без слов и токенов

Около года назад, Ьicrosoft научила модели общаться без токенов, но только внутри одной архитектуры. А что если бы мы могли заставить разные модели от разных компаний и с разной архитектурой общаться друг с другом? Оказывается, это возможно! Cтатья про парадигму Cache-to-Cache (C2C) заставила задуматься на эту тему 🗒

Давайте немного разберемся. Обычно, когда два агента взаимодействуют в мультимодельной системе, они обмениваются текстом. Звучит нормально, но это не самый эффективный способ. Каждая модель хранит так называемый Key-Value Cache (или KV-кэш) — своеобразное «внутреннее состояние», где содержится информация о том, что она «думает».

И вот если бы модели могли передавать не слова, а этот самый кэш, то все происходило бы гораздо быстрее и результат был бы точнее. Так и появился новый подход: Cache-to-Cache (C2C). В этой модели один агент передает свой кэш (Sharer), а другой (Receiver) через специальную нейросеть-проектор встраивает полученную информацию в свое собственное пространство. Звучит сложно, но на самом деле — это способ «передачи смысла» без использования токенов.

Как это работает на практике?

Для того, чтобы связать два разных кэша, понадобился специальный Projection module, который превращает два разных пространства в общий, понятный для обеих моделей эмбеддинг. Также в протокол добавили Weighting module, который решает, какую информацию стоит передавать.

Какие преимущества этого подхода?

— Скорость. Если сравнивать с классическим Text-to-Text, то обмен кэшами происходит в 2-3 раза быстрее. А это, согласитесь, огромный прирост!

— Точность. Когда модели обменяются кэшами, метрика точности может подняться на 5% по сравнению с тем, если бы они общались текстом. Это уже серьезный результат, особенно если учитывать, что кэш содержит гораздо более полную информацию о «мысли» модели.

Минус тут тоже есть — универсальности подхода не хватает

Каждую пару моделей нужно будет обучать по-своему. Придется настроить свой «мост» между ними, что добавляет определенные сложности. Да и если модели используют разные токенизаторы, то тут будет совсем непросто — нужно будет делать Token alignment.
Получается, что обмен кэшами помогает моделям понимать друг друга лучше, чем просто обмен словами. Мощно, мощно.

@GPTMainNews

🤔 Cache-to-Cache: Как модели могут общаться без слов и токенов
Около года назад, Ьicrosoft научила

Люблю сосать парню когда он разговаривает по телефону Когда парень разговаривает по телефону, то сн

Люблю сосать парню когда он разговаривает по телефону

Когда парень разговаривает по телефону, то снимаю с него трусы и начинаю ласкать и делать минет. Он в такие моменты такой смешной, сказать ничего не может, мямлит что-то в трубку, а я угораю с него)

Еще посты

Свежие комментарии