Методы после тренировки для моделей с предварительно обучением (LMS) зависят от надзора человека посредством демонстраций или отзывов о предпочтениях, чтобы указать желаемое поведение. Тем не менее, этот подход сталкивается с критическими ограничениями, поскольку задачи и модельное поведение становятся очень сложными. В этих сценариях наблюдается надзор за человеком, поскольку LMS учатся имитировать ошибки в демонстрациях или использовать неотъемлемые недостатки в системах обратной связи. Основная задача заключается в обучении LMS для задач, которые превосходят возможности человека в надежности в демонстрациях или оценках. Недавние исследования выявили различные способы неудачи, в том числе вознаграждение сигналов надзора, разработанных человеком или самих настоящих людей.
Ограничения человеческого надзора в LLM после тренировки
Исследователи изучили несколько подходов к масштабированию за пределы человеческого надзора. В одном стандартном методе используются высококачественные проверенные вознаграждения, такие как соответствующие выходы модели с решением из земли в математических областях. Несмотря на доказательства того, что предварительно обученные базовые модели обладают сильными скрытыми возможностями для последующих задач, при этом после тренировки добавляется минимальные улучшения, эффективное выявление остается сложным. Метод контрастного согласованного поиска (CCS) – это неконтролируемый подход к выявлению, который использует логическую согласованность для поиска скрытых знаний без надзора. Тем не менее, CCS не подчеркивает подходы контролируемых подходов и часто не выявляет знаний из -за других заметных функций, удовлетворяющих свойствам согласованности.
Введение максимизации внутренней когерентности (ICM)
Исследователи из антропных наук Шмидта, Независимых, Созвездия, Нью-Йоркского университета и Университета Джорджа Вашингтона предложили внутреннюю максимизацию когерентности (ICM), которые тонко-настраиваемые модели на своих собственных сгенерированных этикетках без использования предоставленных метков. ICM решает это путем поиска наборов метки, которые являются логически согласованными и взаимно предсказуемыми в соответствии с предварительно обученной моделью. Поскольку оптимальная идентификация набора метки остается вычислительной, ICM использует моделируемый алгоритм поиска, вдохновленный отжиг, для приблизительного максимального цели. Более того, этот метод соответствует исполнению тренировок по золотым лейблам по правде -закон и GSM8K, и превосходит обучение по краудсорсинговым человеческим лейблам на Альпаке.
Как работает алгоритм ICM
Алгоритм ICM следует за итеративным трехэтапным процессом: (a) Система пробует новый немеченый пример из набора данных для потенциального включения, (b) она определяет оптимальную метку для этого примера, одновременно разрешая любой логический пример на основе функции оценки. ICM оценивается по трем наборам данных: правдиво для оценки правдивости, GSM8K-проверка для математической правильности и альпака для полезности и безвредности. Исследователи использовали четыре базовых показателя в своих экспериментах: нулевой выстрел, с ноль-выстрелом (ЧАТ), золотой этикеткой и человеческую этикетку. Кроме того, в экспериментах использовались две модели с открытым весом: Llama 3.1 8b и 70b, и две проприетарные модели: Claude 3 Haiku и Claude 3.5 Haiku.
Сравнительные сравнения производительности и моделей
В задачах по выявлению сверхчеловеческих возможностей ICM совпадает с золотой точностью надзора на 80%, опережая предполагаемую точность человека 60%. Используя модели вознаграждений, сгенерированные ICM, исследователи успешно обучили помощника чат-бота без человека. Модель вознаграждения без присмотра достигает 75,0% точности на вознаграждении по сравнению с 72,2% для альтернатив, связанных с человеком, обученными данным производства. Более того, используя как неконтролируемую, так и подсудимуясь RM, две политики обучаются RL для создания полезных, безвредных и честных помощников. Политика, обученная неконтролируемой RM, достигает 60% -ного уровня выигрыша. Тем не менее, эти политики по -прежнему отстают от публично выпущенного Claude 3,5 Хайку, который достигает 92% -ных показателей выигрыша.
Заключение и будущие перспективы
В этой статье вводится максимизация внутренней когерентности (ICM), прогресс в неконтролируемой LM для точной настройки предварительно обученных моделей на самоогенерированных метках. Метод последовательно соответствует показателям золотого надзора и превосходит человеческий надзор с краудсорсингом в течение задач моделирования GSM8K-проверки, правдивости и вознаграждения Alpaca. Тем не менее, ограничения ICM включают зависимость от значения концепции в предварительно обученных моделях и неэффективность с длинными входами из-за ограничений окна контекста. По мере того, как LMS продвигается за пределы человеческих возможностей оценки, ICM предлагает многообещающие альтернативы традиционным RLHF, обеспечивая выравнивание модели с намерением человека без границ наблюдения за человеком.
Проверьте БумагаПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем
Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.
