Alibaba Qwen QWQ-32B: Scale Atreformity Learning Show

Команда QWEN в Alibaba выявила QWQ-32B, модель AI параметра на 32 миллиарда, которая доказывает соперничество с доходностью гораздо большее DeepSeek-R1. Этот аванс подчеркивает потенциал масштабирования укрепления обучения (RL) на надежных фундаментальных моделях.

Команда QWEN успешно интегрировала навыки агента в модель рассуждения, позволяя ей критически критически, использовать инструменты и адаптировать его рассуждения на основе экологической обратной связи.

«Skala RL имеет возможность повысить производительность модели за пределами обычных методов предварительного подготовки и после тренировки»,-заявила команда. «Недавние исследования показали, что RL может значительно улучшить возможности рассуждений моделей».

QWQ-32B достигает производительности, сравнимой с DeepSeek-R1, который имеет 671 миллиард параметров (с активированными 37 миллиардами), сертификации эффективности RL при применении к надежным фундаментальным моделям, заявляемым об обширных мирах. Этот замечательный результат подчеркивает потенциал RL для разрыва между размером модели и производительностью.

Модель была оценена с помощью различных ссылок, в том числе AIME24, LiveCodebench, LiveBench, Ifeval и BFCL, предназначенных для оценки его математических рассуждений, способности кодирования и общих задач для решения проблем.

Результаты подчеркивают производительность QWQ-32B по сравнению с другими основными моделями, включая DeepSeek-R1-Distility-QWEN-32B, DeepSeek-R1-Distilita-Lama-70B, O1-Mini и оригинальный Deepseek-R1.

Результаты результатов:

  • AIME24: QWQ-32B достиг 79,5, немного позади 79,8 Deepseek-R1-6718, но значительно до 63,6 Mini Openal-O1 и дистиллированных моделей.
  • Livecodebench: QWQ-32B выиграл 63,4, опять же, близко подсчитанный Deepseek-R1-6718 65,9 и превзошел дистиллированные модели и 53,8 Openal-O1-Mini.
  • LiveBench: QWQ-32B достиг 73,1, причем DeepSeek-R1-6718 выиграл 71,6 и превышает дистиллированные модели и 57,5 ​​Openal-O1-Mini.
  • Ifeval: QWQ-32B выиграл 83,9, очень близко к 83,3 Deepseek-R1-6718 и лидировал дистиллированные модели и 59,1 Openal-O1-Mini.
  • Bfcl: QWQ-32B достиг 66,4, причем DeepSeek-R1-6718 набрал 62,8, показывая лидерство над дистиллированными моделями и 49,3 Openal-O1-Mini.

Подход команды QWEN включал холодный первоначальный контрольно-пропускной пункт и многостраничный процесс RL, вызванный вознаграждениями на основе результатов. Начальная стадия была сосредоточена на масштабировании RL для математических и кодирующих задач с использованием точных контроллеров и серверов выполнения кода. Второй этап расширился до общих возможностей, включив вознаграждение от общих моделей вознаграждений и руководителей, основанных на правилах.

«Мы находим, что эта стадия RL -подготовки с небольшим количеством шагов может повысить производительность других общих навыков, таких как следующее обучение, согласование с человеческими предпочтениями и агентом, без значительной работы по математике и кодированию», -пояснила команда.

QWQ-32B открыт и доступен на Face Hug и ModelCope по лицензии Apache 2.0, а также доступен Qwen Chat. Команда QWEN рассматривает это как первоначальный шаг в восхождении на RL, чтобы улучшить навыки рассуждений и направлена ​​на то, чтобы дополнительно изучить интеграцию агентов с RL для рассуждений с длинными горы.

«По мере того, как мы работаем над разработкой следующего поколения QWEN, мы уверены, что объединение более сильных фундаментальных моделей с RL, основанным на масштабировании компьютерных ресурсов, подтолкнет нас к достижению искусственного общего интеллекта (AGI)», – заявила команда.

Смотрите также: Deepgram Nova-3 Medical: AI Речевая модель сокращает здоровые ошибки транскрипции

Вы хотите узнать больше об искусственном интеллекте и больших данных промышленными лидерами? Посмотреть AI & Big Data Expo, проходящую в Амстердаме, Калифорнии и Лондоне. Комплексное мероприятие связано с другими основными событиями, включая Smart Automatic Conference, Blockx, неделю цифровой трансформации и кибербезопасность и Cloud Expo.

Исследуйте другие предстоящие корпоративные технологические мероприятия и веб -страницы, управляемые Techforge здесь.

Source link

Scroll to Top