Обучение LLM для самоопределения их языка | MIT News

Когда мы взрослеем с детства, наш словарный запас, а также способы его использования, и наш опыт становится богаче, что позволяет нам думать, разум и взаимодействовать с другими со специфичности и намерением. Соответственно, наш выбор слов развивается, чтобы соответствовать нашим личным ценностям, этике, культурным нормам и взглядам. Со временем большинство из нас разрабатывают внутреннее «руководство», которое позволяет нам изучать контекст разговора; Это также часто направляет нас от обмена информацией и чувствами, которые являются или могут быть вредными или неуместными. Как выясняется, крупные языковые модели (LLMS), которые обучаются обширным публичным наборам данных и, следовательно, часто имеют предубеждения и токсичные языки, запеченные, могут получить аналогичную способность, чтобы умеренный свой собственный язык.

Новый метод из MIT, MIT-IBM Watson AI Lab и IBM Research, называемые самодисциплинированной ауторегрессионной выборкой (SASA), позволяет LLMS детоксифицировать свои собственные результаты, не жертвуя беглостью.

В отличие от других методов детоксикации, этот алгоритм декодирования изучает границу между токсичными/нетоксичными подпространствами в пределах собственного внутреннего представления LLM, не изменяя параметры модели, необходимость переподготовки или модели внешнего вознаграждения. Затем, во время вывода, алгоритм оценивает значение токсичности частично сгенерированной фразы: токены (слова), уже сгенерированные и принятые, наряду с каждым потенциальным новым токеном, который можно разумно выбрать для близости к границе классификатора. Затем он выбирает опцию слова, которая помещает фразу в нетоксичное пространство, в конечном итоге предлагая быстрый и эффективный способ генерации менее токсичного языка.

«Мы хотели найти способ любой существующей языковой модели (которая), во время процесса генерации, декодирование может быть подвержено некоторым человеческим ценностям; пример здесь, который мы являемся токсичностью»,-говорит ведущий автор исследования Ching-Yun «Irene» KO PhD ’24, бывший аспирант с лабораторией MIT-IBM Watson AI и текущим научным научным исследованием в IBM’s Thomas’s Thomas J. J.

Среди соавторов КО-Лука Даниэль, профессор Департамента электротехники и компьютерных наук (EECS), член лаборатории MIT-IBM Watson AI, и выпускник KO; и несколько членов лаборатории MIT-IBM Watson AI и/или IBM Research-Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury и Tejaswini Pedapati. Работа будет представлена ​​на Международной конференции по обучению.

Поиск «ограждений»

Учебные ресурсы, стоящие за LLM, почти всегда включают контент, собранной из общественных мест, таких как Интернет и другие легко доступные наборы данных. Таким образом, проклятые слова и издевательства/неприятный язык являются компонентом, хотя некоторые из них находятся в контексте литературных произведений. Затем следует, что LLMS может изначально производить – или быть обманутым в создании – опасного и/или предвзятого контента, который часто содержит неприятные слова или ненавистный язык, даже из безобидных подсказок. Кроме того, было обнаружено, что они могут изучать и усилить язык, который не является предпочтительным или даже вредным для многих приложений и нисходящих задач, что приводит к необходимости стратегий смягчения или исправления.

Есть много способов достижения надежного языкового поколения, которое справедливо и выравнивается в ценность. Некоторые методы используют переподготовку LLM с дезинфицированным набором данных, который является дорогостоящим, требует времени и может изменить производительность LLM; Другие используют декодирующие модели внешнего вознаграждения, такие как выборка или поиск луча, которые требуют больше времени, чтобы работать и требуют большего количества памяти. В случае SASA, KO, DANIEL и исследовательской группы IBM разработали метод, который использует авторегрессивный характер LLMS и используя стратегию на основе декодирования во время вывода LLM, постепенно направляет поколение-один токен за раз-вдали от неприятных или неоднократных выходов и к лучшему языку.

Исследовательская группа достигла этого, создав линейный классификатор, который работает на обученном подпространстве от встраивания LLM. Когда LLM обучаются, слова с аналогичными значениями расположены тесно в векторном пространстве и дальше от разнородных слов; Исследователи предположили, что встраивание LLM, следовательно, также получит контекстную информацию, которая может быть использована для детоксикации. Исследователи использовали наборы данных, которые содержали наборы подсказки (первая половина предложения или мышления), ответ (завершение этого предложения) и аннотация, приспособленную для человека, такую ​​токсичную или нетоксичную, предпочтительную или не предпочтительную, с непрерывными магистрами от 0-1, обозначающих токсичность. Затем был применен байесовский классификатор для обучения и образно провести грань между двоичными подпространствами в встроенных предложениях, представленных положительными значениями (нетоксичным пространством) и отрицательными числами (токсическое пространство).

Затем система SASA работает путем повторного взвешивания вероятностей выборки нового потенциального токена на основе его значения и расстояния сгенерированной фразы до классификатора с целью остаться близко к первоначальному распределению выборки.

Чтобы проиллюстрировать, если пользователь генерирует потенциальный токен № 12 в предложении, LLM будет просмотреть свой полный словарный запас для разумного слова, основанного на 11 словах, которые были представлены перед ним, и используя Top-K, Top-P, он будет отфильтровать и производить примерно 10 токенов для выбора. Затем SASA оценивает каждый из этих токенов в частично завершенном предложении за его близость к классификатору (то есть значение токенов 1-11, плюс каждый потенциальный токен 12). Токены, которые производят предложения в позитивном пространстве, поощряются, в то время как в негативном пространстве оштрафованы. Кроме того, чем дальше от классификатора, тем сильнее воздействие.

«Цель состоит в том, чтобы изменить процесс ауторегрессии отбора проб путем повторного разоблачения вероятности хороших токенов. Если следующий токен может быть токсичным, учитывая контекст, то мы собираемся уменьшить вероятность отбора проб, чтобы эти склонные были токсичными токенами»,-говорит Ко. Исследователи решили сделать это таким образом, «потому что то, что мы говорим, будь то доброкачественное или нет, подчиняется контексту».

Сбивание токсичности для сопоставления стоимости

Исследователи оценили свой метод по нескольким базовым вмешательствам с тремя LLMS увеличивающегося размера; Все они были трансформаторами и авторегрессивными: GPT2-Large, Llama2-7B и Llama 3.1-8B-инструктором, с параметрами 762 миллиона, 7 миллиардов и 8 миллиардов соответственно. Для каждой подсказки LLM было поручено завершить предложение/фразу 25 раз, а перспектива забила их от 0 до 1, причем все токсичное. Команда рассмотрела два показателя: средний показатель максимальной токсичности в течение 25 поколений для всех подсказок и токсика, который был вероятностью производства хотя бы одной токсичной фразы в течение 25 поколений. Снижение беглости (и, следовательно, увеличение недоумения) также были проанализированы. SASA был протестирован для завершения наборов данных RealtoxicityPrompts (RPT), жирных шрифтов и ATTAQ, которые содержали естественные предложения английского предложения.

Исследователи увеличили сложность своих испытаний для детоксикации SASA, начиная с нетоксичных подсказок из набора данных RPT в поисках вредных для завершения предложения. Затем они увеличили его в более сложные подсказки от RPT, которые с большей вероятностью давали в отношении результатов, а также применялись SASA к модели, настроенной на инструкции, чтобы оценить, сможет ли их метод еще больше снизить нежелательные скидки. Они также использовали жирные и ATTAQ -тесты для изучения общей применимости SASA в детоксикации. С помощью жирного набора данных исследователи далее искали гендерную предвзятость в языковых поколениях и пытались достичь сбалансированной токсикальной скорости между полами. Наконец, команда рассмотрела время выполнения, использование памяти и то, как SASA можно объединить с фильтрацией слов для достижения здорового и/или полезного генерации языка.

«Если мы думаем о том, как люди думают и реагируют в мире, мы видим плохие вещи, поэтому речь идет не о том, чтобы позволить языковой модели видеть только хорошие вещи. Речь идет о понимании всего спектра – как хорошего, так и плохого, – говорит Ко, – и выбирают поддержать наши ценности, когда мы говорим и действуем».

В целом, SASA достигла значительного сокращения генерации токсичных языков, выполняя RAD с RAD, современной методикой внешней модели вознаграждения. Тем не менее, было повсеместно, что более сильная детоксикация сопровождает снижение беглости. Перед вмешательством LLMs производили больше токсичных ответов для женских помеченных подсказок, чем мужчины; Тем не менее, SASA также смог значительно сократить вредные ответы, что сделало их более уравнения. Точно так же фильтрация слов поверх SASA сделала заметно более низкие уровни токсичности, но также препятствовала способности LLM реагировать когерентно.

Отличный аспект этой работы заключается в том, что это четко определенная, ограниченная проблема оптимизации, говорит KO, что означает, что баланс между генерацией открытого языка, который звучит естественно, и необходимость уменьшения нежелательного языка может быть достигнут и настроен.

Кроме того, говорит Ко, SASA может хорошо работать для нескольких атрибутов в будущем: «Для людей у ​​нас есть несколько человеческих ценностей. Мы не хотим говорить о токсичных вещах, но мы также хотим быть правдивыми, полезными и лояльными… если бы вы были точно настроить модель для всех этих ценностей, это потребовало бы более вычислительных ресурсов и, конечно, дополнительного обучения». Из-за легкой манеры SASA, его можно легко применить в этих обстоятельствах: «Если вы хотите работать с несколькими значениями, это просто проверяет позицию поколения в нескольких подпространствах. Это только добавляет предельные накладные расходы с точки зрения вычислений и параметров»,-говорит Ко, приводя к более положительному, справедливому и выравниваемому принципам языку.

Эта работа была частично поддержана лабораторией MIT-IBM Watson AI и Национальным научным фондом.

Source link

Scroll to Top