Помимо архитектуры GPT: почему доступ к распространению Google может реконструировать LLM


Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше


В прошлом месяце, наряду с комплексным набором новых ИИ и инноваций, Google DeepMind раскрыл распространение Близнецов. Эта экспериментальная модель исследования использует основополагающий подход для создания текста. Традиционно, крупные языковые модели (LLM), такие как GPT и сами близнецы, полагаются на авторитет, шаг за шагом, где каждое слово генерируется на основе предыдущего. Модели языка распространения (DLMS), также называемые большими языковыми моделями на основе диффузии (DLLM), используют метод, чаще всего наблюдаемый в генерации изображений, начиная с случайного шума и постепенно совершенствуя его в последовательный выход. Этот подход резко увеличивает скорость поколения и может улучшить сплоченность и последствия.

Распространение Близнецов в настоящее время доступно в качестве экспериментальной демонстрации; Подпишитесь на список ожидания здесь, чтобы получить доступПолем

(Примечание редактора: мы будем опустошать изменения парадигмы в качестве языковых моделей, основанных на спредах, и что ему нужно для их управления в производстве в VB -Transformation, 24-25 июня в Сан -ФранцискоНаряду с Google DeepMind, LinkedIn и другими корпоративными AI -лидерами.)

Понимание распространения против власти

Распространение и авторитет – это по сути разные подходы. Автогрессивный подход генерирует текст последовательно, а токены предсказывают по одному. Хотя этот метод обеспечивает сильную сплоченность и контекст, он может быть компьютеризированным интенсивным и медленным, особенно для длительного содержания.

Распространение моделей, напротив, начинается со случайного шума, который постепенно осуждается в постоянном выходе. Если применяется к языку, техника имеет несколько преимуществ. Блоки текста могут быть обработаны параллельно, потенциально производящие целые сегменты или предложения на гораздо более высокой скорости.

По сообщениям, распространение Близнецов может генерировать 1000-2000 токенов в секунду. Напротив, Flash Gemini 2,5 имеет среднюю скорость выхода 272,4 токена в секунду. Кроме того, ошибки в генерации могут быть исправлены во время процесса уточнения, повышение точности и снижение количества галлюцинаций. Могут быть компромиссы, связанные с точностью мелкого зерна и контролем уровня токена; Тем не менее, рост скорости будет изменением игры для нескольких приложений.

Как работает генерация текста на основе распространения?

Во время тренировки DLMS работает постепенно развращая предложение с шумом на многих шагах, пока первоначальное предложение не станет совершенно неизвестным. Затем модель обучается обратить вспять этот процесс, шаг за шагом, восстанавливая первоначальное предложение все более шумных версий. Благодаря итеративному уточнению он учится моделировать все распределение брызгающих предложений в учебных данных.

Хотя спецификации Близнецов еще не раскрыты, типичная методология обучения для диффузионной модели включает в себя эти ключевые этапы:

Предыдущее распространение: С каждым образец в учебной базе данных шум постепенно добавляется для нескольких циклов (часто от 500 до 1000), пока он не станет неотличимым от случайного шума.

Обратное распространение: Модель учится обращать на себя каждую шагу процесса шума, по сути, научившись «осудить» коррумпированную фразу по одному этапу за раз, в конечном итоге восстанавливая исходную структуру.

Этот процесс повторяется миллионы раз с различными образцами и уровнями шума, что позволяет модели изучить надежную функцию осуждения.

После обучения модель способна генерировать совершенно новые предложения. DLMS, как правило, требует условия или ввода, таких как приглашение, тег класса или вставка, чтобы направить генерацию к желаемым результатам. Условие вводится в каждый этап позора, который образует начальную каплю шума в структурированный и последовательный текст.

Преимущества и недостатки моделей на основе спреда

В интервью VentureBeat, Брендан О’Донохью, исследователь Google DeepMind и одно из руководств по проекту диссесения Близнецов, разработано на некоторых преимуществах методов на основе диффузии по сравнению с регрессией автомобилей. Согласно О’Донохью, основные преимущества диффузионных методов заключаются в следующем:

  • Нижние задержки: Модели распространения могут создавать последовательность токенов за гораздо меньше времени, чем авто -регрессивные модели.
  • Адаптивные вычисления: Распространение моделей будет сходиться к последовательности токенов с разными скоростями в зависимости от сложности задачи. Это позволяет модели потреблять меньше ресурсов (и иметь более низкие задержки) для простых задач, а больше о более сложных.
  • Основные рассуждения: Из -за двустороннего внимания в денанкации токены могут посещать будущие жетоны в одном и том же блоке поколения. Это позволяет возникнуть рассуждения, не связанные с причинами, и позволяет модели вносить глобальные изменения в блоке, чтобы создать более последовательный текст.
  • Itera Refining / самокоррекция: Процесс бесчестного процесса включает в себя образцы, которые могут вводить ошибки, а также в автоматических моделях. Однако, в отличие от автоматических моделей, токены переносятся в денонсацию, что затем имеет шанс исправить ошибку.

О’Донохью также отметил основные недостатки: «Более высокая стоимость подачи и немного более высокого токена времени на первое место (TTFT), поскольку авторегрессивные модели будут создавать первый токен немедленно. Для распространения, первый токен может появиться только тогда, когда будет готова вся последовательность токенов».

Ссылки на производительность

Google говорит, что распространение производительности Gemini сравнимо с Flash-Lite Gemini 2.0.

ЭталонТип вБлизнецы -диссомизацияGemini 2.0 Flash-Lite
LiveCodebench (V6)Код30,9%28,5%
BigCodebenchКод45,4%45,8%
LBPP (V2)Код56,8%56,0%
Swe Cangedered*Код22,9%28,5%
ГуманевалКод89,6%90,2%
MBPPКод76,0%75,8%
Gpqa -diamondНаука40,4%56,5%
AIME 2025Математика23,3%20,0%
Большая скамейка очень сложноРассуждение15,0%21,0%
Глобальный MMLU (Lite)Многоязычный69,1%79,0%

* Несагент рейтинг (только один поворот редактирование), максимальная длина приглашения 32 тыс..

Эти две модели сравнивались с использованием нескольких ссылок, с оценками на основе того, сколько раз модель давала правильный ответ в первой попытке. Распространение Близнецов хорошо выполнялось в кодированных и математических испытаниях, в то время как Flash-Lite Gemini 2.0 обладал краем рассуждений, научных знаний и многоязычных навыков.

По мере развития расширения Gemini нет никаких оснований думать, что его производительность не будет захватывать более устоявшиеся модели. Согласно O’Donoghue, разрыв между двумя методами «по существу закрыт по отношению к эталонной деятельности, по крайней мере, в относительно небольших размерах, которые мы масштабировали.

Тестирование Близнецов -рассеивания

VentureBeat получил доступ к экспериментальной демонстрации. Когда вы ставите Близнецов распространять его ритмы, первое, что мы заметили, было скоростью. Когда вы организуете предлагаемые обещания, данные Google, включая создание интерактивных программ HTML, таких как ксилофон и планета Tac Toe, каждый запрос выполняется менее чем за три секунды, со скоростью от 600 до 1300 токенов в секунду.

Чтобы проверить его производительность с помощью реального приложения, мы попросили спред Близнецов, чтобы создать интерфейс видеочата со следующей подсказкой:

Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

Менее чем за две секунды распространение Близнецов создало рабочий интерфейс с видео и аудио.

Хотя это не было сложной реализацией, это может быть начало MVP, которое может быть завершено с помощью некоторой дальнейшей мотивации. Обратите внимание, что Flash Gemini 2.5 также создала рабочий интерфейс, хотя и при более медленном ритме (около семи секунд).

Распространение Близнецов также имеет «Мгновенное редактирование», режим, в котором текст или код могут застревать и отредактировать в режиме реального времени с минимальной мотивацией. Мгновенное редактирование эффективно для многих типов текстовых редактирования, включая исправление грамматики, обновление текста, нацеленные на различных людей для чтения, или добавление ключевых слов SEO. Он также полезен для таких задач, как код Refactoring, добавление новых функций в приложения или преобразование существующей базы кода на другой язык.

Корпоративные варианты использования DLMS

Можно с уверенностью сказать, что любое приложение, которое требует быстрого отклика, выгод от технологии DLM. Это включает в себя приложения в режиме реального времени и низкие скрытые приложения, такие как разговорные ботинки ИИ и чат, живую транскрипцию и перевод, или идеальные помощники автомобиля и трески.

По словам О’Донохью, с приложениями, которые используют «онлайн -редактирование, например, принимая кусок текста и внесение некоторых изменений на месте, распространение моделей применяется таким образом, чтобы автоматические модели не были». DLMS также имеет преимущество с разумом, математикой и проблемами кодирования, из-за «рассуждения без причины, уделяемой биадическим вниманием».

DLM все еще в его детстве; Тем не менее, технология может потенциально изменить то, как создаются языковые модели. Они не только генерируют текст на гораздо более высокой скорости, чем авто -регрессивные модели, но и их способность возвращаться и исправлять ошибки означает, что в конечном итоге они также могут дать результаты с большей точностью.

Распространение Близнецов входит в растущую экосистему DLMS, с двумя заметными примерами, которые являются ртутью, разработанные Labs, и Llada, модель GSAI с открытым исходным кодом. Вместе эти модели отражают более широкий момент, лежащий в основе генерации языка на основе спреда и предлагают масштабируемую, параллельную альтернативу традиционным архитектурам автоматической режима.


Source link
Scroll to Top