от

Нейросети научатся говорить как люди: революция Thinking Machines

=

Нейросети научатся говорить как люди: революция Thinking Machines

Представьте, что вы звоните другу и ждёте, пока он закончит говорить, прежде чем начать отвечать. Потом он ждёт, пока вы закончите. И так — туда-сюда, как в каком-то странном диалоге с задержками. Именно так работают все современные нейросети. Но Thinking Machines решили поменять игру.

illustration

Как сейчас работают все ИИ

Когда вы пишете запрос в ChatGPT, Claude или любую другую нейросеть, происходит примерно следующее: вы вводите текст полностью, нажимаете отправить, и только потом модель начинает генерировать ответ. Это как переписываться в мессенджере — сообщение целиком, потом ответ целиком.

Технически это называется последовательной обработкой: сначала вся входящая информация поступает в модель, потом она полностью её обрабатывает, потом генерирует выходные данные. Это работает, но это не похоже на то, как разговаривают люди.

Когда вы звоните другу, вы не излагаете пятиминутный монолог, а потом ждёте пятиминутного ответа. Вы говорите пару предложений, друг вас перебивает, вы оба что-то уточняете в реальном времени. Это естественный диалог с перекрытиями, паузами, взаимной адаптацией.

Что предлагает Thinking Machines

Компания Thinking Machines работает над чем-то совсем другим. Их идея — создать модель, которая одновременно слушает и говорит. Пока вы вводите текст, модель уже начинает генерировать ответ. Это похоже на реальный телефонный разговор, где люди частично перекрывают друг друга и реагируют на лету.

Звучит просто, но это требует полной переработки архитектуры нейросетей. Сейчас все модели построены на трансформерной архитектуре, которая изначально была спроектирована для последовательной обработки. Менять это — всё равно что переделывать весь движок машины.

Почему это важно

Во-первых, это будет более естественным взаимодействием с ИИ. Вы сможете прерывать модель, уточнять что-то по ходу разговора, и она будет реагировать на эти уточнения не задумываясь. Это откроет новые типы применения для нейросетей в образовании, консультировании, творчестве.

Во-вторых, это может решить проблему с галлюцинациями. Сейчас модели иногда генерируют полный бред, потому что они не могут скорректировать свой ответ во время процесса генерации на основе входящей информации. Если модель сможет обрабатывать входные данные и генерировать выход одновременно, она сможет подстраиваться в процессе.

В-третьих, это может быть более эффективно с точки зрения вычислений. Вместо того чтобы ждать, пока вы закончите писать весь запрос, модель может начать обработку сразу. Это может ускорить общее время ответа и снизить вычислительные затраты.

Технические вызовы

Но тут всё не так просто. Текущие модели основаны на внимательном механизме (attention mechanism), который смотрит на весь контекст сразу. Если вы переходите на одновременную обработку входа и выхода, вам нужны совсем другие вычислительные примитивы.

Нужно переосмыслить, как модель видит информацию. В обычной архитектуре модель может смотреть на весь ваш вопрос перед тем, как ответить. В новой архитектуре она будет видеть части вашего вопроса по мере их появления, и ей нужно будет генерировать осмысленный ответ на неполную информацию.

Это значит, что модель должна быть одновременно более гибкой и более предсказуемой. Гибкой — чтобы адаптироваться к новой информации. Предсказуемой — чтобы уже сгенерированные части ответа не становились бредом, когда появляется новая информация.

Что это значит для будущего

Если Thinking Machines это сделают, это может стать поворотной точкой для ИИ-взаимодействия. Сейчас каждый язык кодирует информацию последовательно: слово за словом, предложение за предложением. Но это не совпадает с тем, как работает человеческое мышление и восприятие.

Люди обрабатывают информацию частично, генерируют гипотезы, уточняют их по ходу дела. Модель, которая может это делать, будет гораздо более похожа на партнёра в разговоре, а не на автомат, который вы кормите текстом.

Это может изменить не только то, как мы используем ИИ в повседневной жизни, но и то, как мы понимаем сам процесс коммуникации и обработки информации. Потому что оказывается, что последовательность, которую мы считали неизбежной, — это просто ограничение текущей технологии, а не свойство самого языка.


Зарегистрируйтесь и оставьте комментарий! Как вы думаете, будет ли разговор с ИИ, который может перебивать и слушать одновременно, более полезным? Или это усложнит взаимодействие? Поделитесь вашим мнением в комментариях ниже!