IBM AI выпускает Granite 3.2 8b Инструкт и Гранит 3.2 2B Модели инструктирования: предлагая экспериментальную цепочку мышления.

Модели с большими языками (LLMS) используют методы глубокого обучения, чтобы понять и генерировать человеческий текст, что делает их бесценными для различных приложений, таких как генерация текста, ответ на вопросы, суммирование и поиск. В то время как ранние LLMS продемонстрировали замечательные возможности, их высокие вычислительные требования и неэффективность сделали их непрактичными для развертывания в масштабе предприятия. Исследователи разработали более оптимизированные и масштабируемые модели, которые балансируют производительность, эффективность и применимость предприятия для решения этих проблем.

Несмотря на успех существующих LLMS, пользователи предприятия требуют высокоэффективных, масштабируемых и индивидуальных решений для конкретных потребностей бизнеса. Многие общедоступные модели слишком велики, чтобы эффективно развернуться или не иметь точной настройки, необходимой для корпоративных приложений. Организациям также нуждаются в моделях, которые поддерживают возможности для следования инструкции, сохраняя при этом надежность в различных областях. Необходимость сбалансировать размер модели, эффективность вывода и оптимизация настройки инструкций заставляет исследователей разработать более умные и более готовые к предприятием языковые модели.

Существующие LLM обычно предназначены для задач генерации текста и рассуждений общего назначения. Ведущие модели, такие как архитектуры в стиле GPT, полагаются на крупномасштабную предварительную подготовку и тонкую настройку, чтобы улучшить их возможности. Тем не менее, большинство из этих моделей сталкиваются с ограничениями в области эффективности, ограничений лицензирования и адаптивности предприятия. В то время как более мелкие модели обеспечивают эффективность, им часто не хватает надежности, и более крупные модели требуют обширных вычислительных ресурсов, что делает их непрактичными для многих предприятий. Компании экспериментировали с моделями, настроенными на инструкции, которые улучшают удобство использования в бизнес-контекстах, но остается разрыв в обеспечении оптимального баланса размера, скорости и возможностей.

IBM Research AI представила Языковые модели гранита 3.2семейство LLM, настроенных на обучение, предназначенное для корпоративных приложений. Недавно выпущенные модели включают Granite 3.2-2b Instruct, компактную, но высокоэффективную модель, оптимизированную для быстрого вывода, и Granite 3.2-8b инструкт, более мощный вариант, способный обрабатывать сложные предприятия. Кроме того, IBM предоставила предварительный просмотр предварительного просмотра раннего доступа, предварительный просмотр Granite 3.2-8B, включая последние достижения настройки инструкций. В отличие от многих существующих моделей, была разработана серия Granite 3.2, фокусируясь на возможностях обучения, что позволяет структурированные ответы, адаптированные для бизнеса. Эти модели расширяют экосистему IBM AI за пределами моделей встраивания гранита, что позволяет эффективно извлекать текст и высококачественную генерацию текста для реальных приложений.

Модели Granite 3.2 используют архитектуру, основанную на трансформаторах, используя методы оптимизации слоя для снижения задержки при сохранении точности модели. В отличие от традиционных генеративных моделей, которые полагаются исключительно на стандартные наборы данных предварительного подготовки, эти модели включают в себя пользовательский процесс настройки инструкций, улучшая их способность генерировать структурированные ответы. Модели были обучены с использованием смесью кураторских наборов данных предприятия и разнообразных корпораций, основанных на инструкциях, обеспечивая хорошо работать в различных отраслях. Вариант параметров на 2 миллиарда предоставляет легкую альтернативу для предприятий, нуждающихся в быстрых и эффективных решениях по искусственному искусству, тогда как модель параметров на 8 миллиардов предлагает более глубокое контекстуальное понимание и улучшение генерации ответов. IBM также ввела методы самоотделения, позволяя небольшим моделям извлечь выгоду из знаний своих более крупных аналогов без увеличения вычислительных накладных расходов.

Обширные результаты сравнительного анализа показывают, что модели Granite 3.2 превосходят сопоставимые LLMS, настроенные на инструкции в ключевых случаях использования предприятия. Модель 8B показывает более высокую точность в структурированных задачах обучения, чем модели аналогичного размера, в то время как модель 2B достигает на 35% ниже задержки вывода, чем ведущие альтернативы. Оценки по вопросам, отвечающим на вопросы, задачи суммирования и наборов данных генерации текста, показывают, что модели поддерживают высокую беглость и согласованность при повышении эффективности. Модель гранита 3,2-8B обеспечивает 82,6% -ную точность по задачам поиска, специфичных для домена, на 7% выше, чем в предыдущих итерациях. Кроме того, модель превосходит конкурентов на 11% от маржи в структурированных задачах с быстрыми температурами. Тестирование производительности в разных разговорах указывает на то, что ответы, генерируемые моделями Granite 3.2, сохраняют контекстную осведомленность для 97% тестовых случаев, что делает их очень надежными для корпоративных чат-ботов и виртуальных помощников.

Несколько ключевых выводов из исследования гранита:

  1. Модель гранита 3.2-8b обеспечивает точность 82,6% в задачах поиска, специфичных для домена, с 11% лучшим структурированным выполнением инструкций, чем конкурирующие модели.
  2. Вариант 2B снижает задержку вывода на 35%, что делает его подходящим для предприятий с быстрым ответом.
  3. Модели точно настроены с помощью кураторских наборов данных и методов самоотделения, улучшая генерацию структурированного отклика.
  4. Модели Granite 3.2 превосходят существующие инструкционные LLMS по задачам QA, суммирования и генерации текста с заметным отрывом.
  5. Эти модели предназначены для реального использования и обеспечивают 97% успех в нескольких разговорных задачах.
  6. Выпущен в подростке Apache 2.0, позволяя неограниченное исследование и коммерческое развертывание.
  7. IBM планирует улучшить модели, с потенциальными расширениями в многоязычном поиске и оптимизированной эффективности памяти.

Проверить технические детали и Модели на обнимающемся лицеПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top