Объявление Gemma 3N Предварительное просмотр: мощный, эффективный, мобильный-первостепенный AI

После захватывающих запусков Gemma 3 и Gemma 3 QAT, нашей семьи современных открытых моделей, способных работать на одном облачном или настольном ускорителе, мы еще больше продвигаем свое видение для доступного ИИ. Gemma 3 предоставила мощные возможности для разработчиков, и теперь мы расширяем это видение до очень способного ИИ в реальном времени, работающего непосредственно на устройствах, которые вы используете каждый день-ваши телефоны, планшеты и ноутбуки.

Чтобы питать следующее поколение ИИ настройки и поддержать разнообразные приложения, в том числе расширение возможностей Gemini Nano, мы разработали новую, передовую архитектуру. Этот фонд следующего поколения был создан в тесном сотрудничестве с лидерами мобильных оборудования, такими как Qualcomm Technologies, Mediatek и Samsung System LSI, и оптимизирован для молниеносного, мультимодального ИИ, обеспечивающего действительно личный и личный опыт непосредственно на вашем устройстве.

Gemma 3N – наша первая открытая модель, основанная на этой новаторской общей архитектуре, позволяющей разработчикам начать экспериментировать с этой технологией сегодня в раннем предварительном просмотре. Та же самая передовая архитектура также поддерживает следующее поколение Gemini Nano, которое привносит эти возможности для широкого спектра функций в приложениях Google и нашей экосистеме на устройствах и станет доступной в конце этого года. Gemma 3N позволяет вам начать создавать этот фундамент, который придет на основные платформы, такие как Android и Chrome.

Эта диаграмма оценивает модели искусственного интеллекта от Chatbot Arena Elo Rates; Более высокие оценки (верхние числа) указывают на большие предпочтения пользователя. Gemma 3N занимает высокую оценку как популярных проприетарных, так и открытых моделей.

Gemma 3N использует инновации Google DeepMind, называемую для каждого слоя Enterdings (PLE), которое обеспечивает значительное снижение использования оперативной памяти. В то время как количество параметров необработанного составляет 5b и 8b, это инновация позволяет вам запускать более крупные модели на мобильных устройствах или в прямом эфире из облака, причем накладные расходы памяти сравниваются с моделью 2b и 4b, что означает, что модели могут работать с динамическим следствием памяти всего 2 ГБ и 3 ГБ. Узнайте больше в нашей документации.

Изучая Gemma 3n, разработчики могут получить ранний предварительный просмотр основных возможностей открытой модели и архитектурных инноваций, первых, которые будут доступны на Android и Chrome с Gemini Nano.

В этом посте мы рассмотрим новые возможности Gemma 3N, наш подход к ответственному развитию и то, как вы можете получить доступ к предварительному просмотру сегодня.


Ключевые возможности Джеммы 3N

Инженерные для быстрой, с низкой пехотинкой ИИ, пробегая локально, Gemma 3n доставляет:

  • Оптимизированная производительность и эффективность на устройстве: Gemma 3N начинает реагировать примерно в 1,5 раза быстрее на мобильном телефоне с значительно лучшим качеством (по сравнению с Gemma 3 4B) и сниженным следствием памяти, достигнутым благодаря таким инновациям, как в Entlectings, совместное использование KVC и расширенную квантованию активации.
  • Гибкость многих в 1: Модель с следам Active Memory 4b, которая изначально включает в себя вложенную современную субмодель Active Active Active Memory (благодаря обучению Matformer). Это обеспечивает гибкость для динамического обмена производительности и качества на лету без размещения отдельных моделей. Мы также вводим возможности Mix’n’match в Gemma 3n, чтобы динамически создавать подмодели из модели 4b, которые могут оптимально соответствовать вашему конкретному варианту использования – и связанный с ними компромисс/задержка. Оставайтесь с нами, чтобы узнать больше об этом исследовании в нашем предстоящем техническом отчете.
  • Конфиденциальность-в автономном режиме: Локальное выполнение обеспечивает функции, которые уважают конфиденциальность пользователей и функцию надежно, даже без подключения к Интернету.
  • Расширенное мультимодальное понимание с аудио: Gemma 3N может понимать и обрабатывать аудио, текст и изображения и предлагает значительно улучшенное понимание видео. Его звуковые возможности позволяют модели выполнять высококачественное автоматическое распознавание речи (транскрипция) и перевод (речь в переведенный текст). Кроме того, модель принимает чередующиеся входы по методам, позволяя понять сложные мультимодальные взаимодействия. (Публичная реализация скоро)
  • Улучшенные многоязычные возможности: Улучшено многоязычное выступление, особенно на японском, немецком, корейском, испанском и французском языках. Сильная производительность отражалась на многоязычных критериях, таких как 50,1% на WMT24 ++ (CRF).

MMLU Performance

Эта диаграмма показывает производительность MMLU по сравнению с размером модели Gemma 3N Mix-N-Match (предварительно проведенный).

Разблокируя новые впечатления на ходу

Gemma 3N будет расширять возможности новой волны интеллектуальных, на ходу, позволяя разработчикам:

  1. Построить живой, интерактивный опыт Это понимает и отвечает на визуальные и слуховые сигналы в реальном времени из среды пользователя.


2 Сила более глубокое понимание и генерация контекстуального текста с использованием комбинированных аудио, изображений, видео и текстовых вводов-все обрабатывались в частном порядке на грани.


3 Разработать передовые аудио-ориентированные приложениявключая транскрипцию речи в реальном времени, перевод и богатые голосовые взаимодействия.

Вот обзор и типы опыта, которые вы можете построить:

Строительство ответственно, вместе

Наша приверженность ответственному развитию ИИ имеет первостепенное значение. Gemma 3N, как и все модели Gemma, прошли строгие оценки безопасности, управление данными и точную настройку с нашими политиками безопасности. Мы подходим к открытым моделям с тщательной оценкой риска, постоянно совершенствуя нашу практику по мере развития ландшафта ИИ.


Начало работы: предварительный просмотр GEMMA 3N сегодня

Мы рады, что Gemma 3N в ваши руки через предварительный просмотр, начиная с сегодняшнего дня:


Первоначальный доступ (доступный сейчас):

  • Облачное исследование с Google AI Studio: Попробуйте Gemma 3N непосредственно в вашем браузере в Google AI Studio – настройка не требуется. Мгновенно изучите его возможности ввода текста.
  • Разработка на устройстве с Google AI Edge: Для разработчиков, стремящихся интегрировать Gemma 3n локально, Google Ai Edge предоставляет инструменты и библиотеки. Сегодня вы можете начать с возможностей понимания текста и изображений.

Gemma 3N отмечает следующий шаг в демократизации доступа к передовым, эффективному ИИ. Мы невероятно взволнованы, увидев, что вы создадите, когда мы делаем эту технологию постепенно доступной, начиная с сегодняшнего предварительного просмотра.

Исследуйте это объявление и все обновления Google I/O 2025 года на io.google, начиная с 22 мая.

Source link

Scroll to Top