Tencent Open Sources Hunyuan-A13b: модель MOE 13B Active с двойным режимом и контекстом 256K

Ханьюанская команда Tencent представила Hunyuan-A13bновая большая языковая модель с открытым исходным кодом, построенную на разреженном Смесь экспертов (MOE) архитектура. В то время как модель состоит из 80 миллиардов общих параметров, только 13 миллиардов активны во время вывода, предлагая высокоэффективный баланс между производительностью и вычислительными затратами. Он поддерживает Сгруппированное внимание запроса (GQA)В 256K Длина контекстаи а Двойная платформа рассуждения Это переключается между быстрым и медленным мышлением.

Разработанный для эффективного развертывания и надежных рассуждений, Hunyuan-A13b достигает результатов высшего уровня между агентскими тестами, включая BFCL-V3В τ-пластинВ C3-Benchи Комплексфункунчасто опережая более крупные модели в сценариях, вызывающих инструмент и длительный контекст.

Архитектура: Sparse MOE с 13B активными параметрами

По своей сути Hunyuan-A13B следует мелкозернистый дизайн MOE, включающий 1 общий эксперт и 64 не общежитияс 8 экспертов активировали за проход впередПолем Эта архитектура, подкрепленная масштабированием экспериментов, обеспечивает согласованность производительности, сохраняя при этом низкие затраты на вывод. Модель включает 32 слоя, использование Свиглу Активации, размер словарного запаса 128 тыс. И интегрирует GQA для повышения эффективности памяти во время вывода с длинным контекстом.

Настройка MOE модели сочетается с оптимизированной Учебная программа обучения: Фаза предварительной подготовки 20т-ток, за которой следует быстро отжиг и адаптация с длинным контекстом. Эта последняя фаза масштабирует окно контекста сначала до 32K, а затем до 256K токенов с использованием позиционного кодирования NTK-AWAR, обеспечивая стабильную производительность на больших длинах последовательности.

Двойное рассуждение: быстрое и медленное мышление

Выдающейся особенностью Hunyuan-A13B является его двойная цепочка мыслей (COT) способность. Он поддерживает как низкую задержку быстро мышление режим для обычных запросов и более сложный медленно Режим для многоэтапных рассуждений. Эти режимы контролируются с помощью простой системы тегов: /no think для быстрого вывода и /think для рефлексивных рассуждений. Эта гибкость позволяет пользователям адаптировать вычислительные затраты к сложности задачи.

Пост-тренинг: обучение подкрепления с моделями вознаграждений, специфичных для конкретной задачи,

Пост-тренировочный трубопровод Хунюан-А13B включает Multi-stage Supersed Fine-Tuning (SFT) и подкрепление обучения (RL) как по конкретным рассуждениям, так и общим задачам. Стадии RL включают Награды на основе результатов и Обратная связь с конкретным инструментомвключая среды выполнения песочницы для проверки кода и на основе правил для агентов.

На этапе обучения агента команда синтезировала разнообразные сценарии использования инструментов с ролями планировщика, шашка и инструментов, создавая над 20 000 комбинаций форматаПолем Это усилило способность Hunyuan-A13B выполнять реальные рабочие процессы, такие как обработка электронных таблиц, поиск информации и структурированные рассуждения.

Оценка: современная агентская производительность

Hunyuan-A13b шоу Сильные эталонные результаты В разных задачах НЛП:

  • На МатематикаВ Cmathи GPQAон оценивает на номинал или выше более крупных моделей плотных и моделей.
  • Это превосходит QWEN3-A22B и DeepSeek R1 в логические рассуждения (BBH: 89,1; зебралоген: 84,7).
  • В кодировании он имеет свои собственные с 83,9 на MBPP и 69,3 на Multipl-E.
  • Для Агентные задачиэто ведет к BFCL-V3 (78,3) и ComplexFuncbench (61,2)проверка своих возможностей использования инструментов.

Понимание длительного контекста-еще ​​одна изюминка. На Penguinscrollsон набирает 87,7 – просто стесняется Близнецов 2.5 Pro. На Правительон поддерживает высокую производительность (73,9) даже в 64K – 128K Контекстопережая более крупные модели, такие как QWEN3-A22B и DeepSeek R1 в контексте.

Оптимизация и развертывание вывода

Hunyuan-A13b полностью интегрирован с такими популярными рамками вывода, как vllmВ Sglangи Tensorrt-llmПолем Он поддерживает точные форматы, такие как W16A16В W8A8и KV Cache FP8наряду с такими функциями, как Автоматическое префикс кэширование и ПРЕДУПРЕЖДЕНИЕ ЧАНКАПолем Это достигает 1981.99 Токены/с Пропускная пропускная способность при входе на 32 партии (вход 2048, длина вывода 14336), что делает его практичным для приложений в реальном времени.

Актуальность с открытым исходным кодом и отраслью

Hunyuan-A13B, доступный для обнимающего лица и GitHub, выпускается с разрешающим лицензированием с открытым исходным кодом. Он спроектирован для эффективного использования исследований и производства, особенно в чувствительных к задержке средах и задачах с длинным контекстом.

Комбинируя MOE МасштабируемостьВ агентские рассужденияи Доступность с открытым исходным кодомHunyuan-A13B от Tencent предлагает убедительную альтернативу тяжеловесе LLM, обеспечивая более широкие эксперименты и развертывание без жертвы.


Проверьте Бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top