В то время как модели раннего языка могут только обрабатывать текст, современные крупные языковые модели теперь выполняют очень разнообразные задачи по различным типам данных. Например, LLM могут понимать много языков, генерировать компьютерный код, решать задачи по математике или отвечать на вопросы об изображениях и аудио.
Исследователи MIT исследовали внутреннюю работу LLM, чтобы лучше понять, как они обрабатывают такие разные данные, и обнаружили доказательства того, что они имеют некоторое сходство с человеческим мозгом.
Нейробиологи считают, что человеческий мозг имеет «семантический центр» в передней височной доле, которая интегрирует семантическую информацию из различных модальностей, таких как визуальные данные и тактильные входы. Этот семантический концентратор подключен к «спицам» специфичных для модальности, которые направляют информацию в центр. Исследователи MIT обнаружили, что LLM используют аналогичный механизм путем абстрактной обработки данных с различными модальностями центральным, обобщенным способом. Например, модель, которая имеет английский язык в качестве доминирующего языка, будет полагаться на английский язык как центральную среду для обработки входов на японском языке или разума о арифметике, компьютерном коде и т. Д. Использование текста на доминирующем языке модели для изменения своих выходов, даже если модель обрабатывает данные на других языках.
Эти результаты могут помочь ученым обучать будущие LLM, которые лучше справляются с различными данными.
«LLMS – большие черные ящики. Они добились очень впечатляющих результатов, но у нас очень мало знаний о их внутренних рабочих механизмах. Я надеюсь, что это может быть ранним шагом, чтобы лучше понять, как они работают, чтобы мы могли улучшить их и лучше контролировать их, когда это необходимо », – говорит Чжаофенг Ву, аспирант электротехники и компьютерные науки (EECS) и ведущий автор статьи о документе. это исследование.
Его соавторы включают Синьян Velocity Yu, аспирант Университета Южной Калифорнии (USC); Дани Йогатама, доцент в USC; Джисен Лу, научный сотрудник Apple; и старший автор Yoon Kim, доцент EECS в MIT и член Лаборатории компьютерного и искусственного интеллекта (CSAIL). Исследование будет представлено на Международной конференции по обучению.
Интеграция разнообразных данных
Исследователи основали новое исследование на предыдущей работе, в которой намекали, что английские LLMS используют английский для выполнения процессов рассуждений на различных языках.
Ву и его сотрудники расширили эту идею, запустив углубленное исследование в механизмах, используемых LLMS для обработки разнообразных данных.
LLM, который состоит из многих взаимосвязанных слоев, разбивает ввод текста в слова или подвески, вызываемые токенами. Модель присваивает представление каждому токену, что позволяет ей исследовать отношения между токенами и генерировать следующее слово в последовательности. В случае изображений или звука эти токены соответствуют определенным областям изображения или разделов аудиоклипа.
Исследователи обнаружили, что начальные данные модели обрабатывают данные обрабатывают его на конкретном языке или модальности, такие как специфичные для модальности спицы человеческого мозга. Затем LLM преобразует токены в модально-агрессивные представления, поскольку он объясняет их на протяжении всех своих внутренних слоев, сродни тому, как семантический центр мозга объединяет разнообразную информацию.
Модель присваивает аналогичные представления на входные данные с аналогичными значениями, несмотря на их тип данных, включая изображения, аудио, компьютерный код и проблемы арифметики. Несмотря на то, что изображение и его текстовая подпись являются различными типами данных, поскольку они имеют одинаковое значение, LLM назначит им аналогичные представления.
Например, английский доминантный LLM «думает» о китайском текстовом вводе на английском языке, прежде чем генерировать вывод на китайском языке. Модель имеет аналогичную тенденцию рассуждения для не текстовых вводов, таких как компьютерный код, математические задачи или даже мультимодальные данные.
Чтобы проверить эту гипотезу, исследователи приняли пару предложений с тем же значением, но написанные на двух разных языках через модель. Они измерили, насколько похожи были представления модели для каждого предложения.
Затем они провели второй набор экспериментов, в которых они питали английский доминирующий текст модели на другом языке, как китайский, и измеряли, насколько схожи были его внутреннее представление на английском и китайском. Исследователи провели аналогичные эксперименты для других типов данных.
Они последовательно обнаруживали, что представления модели были одинаковыми для предложений с аналогичными значениями. Кроме того, во многих типах данных токены, которые модель, обработанная во внутренних слоях, больше похожи на английские токены, чем на тип входных данных.
«Многие из этих типов входных данных кажутся чрезвычайно отличными от языка, поэтому мы были очень удивлены, что мы можем исследовать английские токенс, когда модель обрабатывает, например, математические или кодирующие выражения»,-говорит Ву.
Используя семантический центр
Исследователи считают, что LLM могут изучать эту стратегию семантического концентратора во время обучения, потому что это экономичный способ обработки различных данных.
«Существуют тысячи языков, но многие знания обмениваются, например, знание здравого смысла или фактические знания. Модель не должна дублировать эти знания между языками », – говорит Ву.
Исследователи также пытались вмешиваться во внутренние слои модели, используя английский текст, когда он обрабатывал другие языки. Они обнаружили, что могут предсказуемо изменить выходы модели, хотя эти выходы были на других языках.
Ученые могли бы использовать это явление, чтобы поощрять модель обмениваться как можно большим количеством информации по различным типам данных, потенциально повышая эффективность.
Но, с другой стороны, могут быть концепции или знания, которые не являются переводящими в разные языки или типах данных, такие как культурно -специфические знания. Ученые могут хотеть, чтобы в этих случаях были некоторые механизмы обработки, специфичные для языка.
«Как вы максимально делитесь, когда это возможно, но также позволяете языкам иметь некоторые языковые механизмы обработки? Это может быть изучено в будущей работе над модельными архитектурами », – говорит Ву.
Кроме того, исследователи могут использовать эти идеи для улучшения многоязычных моделей. Часто английская доминантная модель, которая учится говорить на другом языке, потеряет часть своей точности на английском языке. По его словам, лучшее понимание семантического центра LLM может помочь исследователям предотвратить это языковое вмешательство.
«Понимание того, как языковые модели обрабатывают входные данные между языками и модальностями, является ключевым вопросом в искусственном интеллекте. Эта статья создает интересную связь с нейробиологией и показывает, что предлагаемая «гипотеза семантического концентратора» содержит в моделях современного языка, где семантически похожие представления различных типов данных создаются в промежуточных слоях модели », – говорит More Geva Piperk, доцент в профессоре в Школа компьютерных наук в Университете Тель -Авив, которая не была связана с этой работой. «Гипотеза и эксперименты прекрасно связывают и расширяют результаты из предыдущих работ и могут оказать влияние на будущие исследования по созданию лучших мультимодальных моделей и изучении связей между ними, а также функцией мозга и познания у людей».
Это исследование, частично финансируемое лабораторией MIT-IBM Watson AI.