Исследовать
- Опубликовано
- Авторы
Команда воробья
Обучение искусственного интеллекта для общения таким образом, чтобы это было более полезным, правильным и безвредным
В последние годы крупные языковые модели (LLMS) добились успеха в ряде задач, таких как ответ на вопрос, суммирование и диалог. Диалог является особенно интересной задачей, потому что она имеет гибкую и интерактивную связь. Тем не менее, диалог -агенты, основанные на LLMS, могут выражать неточную или изобретенную информацию, использовать дискриминационное язык или поощрять небезопасное поведение.
Чтобы создать более безопасные диалоги, мы должны быть в состоянии учиться на обратной связи с человеком. Применяя обучение подкрепления, основанное на участии участников исследований, мы исследуем новые методы для обучающих диалоговых агентов, которые продемонстрируют обещание для более безопасной системы.
В нашей последней статье мы представляем Воробей – Агент диалога, который полезен и снижает риск небезопасных и неуместных ответов. Наш агент предназначен для общения с пользователем, отвечать на вопросы и поиск в Интернете, используя Google, когда полезно искать доказательства, чтобы информировать его ответы.
Наша новая разговорная модель ИИ отвечает самостоятельно на первоначальную человеческую подсказку.
Sparrow – это исследовательская модель и доказательство концепции, разработанная с целью обучения диалога, чтобы быть более полезными, правильными и безвредными. Изучая эти качества в общей обстановке диалога, Sparrow продвигает наше понимание того, как мы можем научить агентов быть более безопасными и полезными – и, в конечном итоге, помочь построить более безопасное и более полезное искусственный общий интеллект (AGI).
Воробей отказался ответить на потенциально вредный вопрос.
Как работает воробей
Обучение разговорного искусственного интеллекта – особенно сложная проблема, потому что трудно точно определить то, что делает диалог успешным. Чтобы решить эту проблему, мы обращаемся к форме обучения подкрепления (RL) на основе отзывов людей, используя отзывы о предпочтениях участников исследования для обучения модели того, насколько полезным ответ.
Чтобы получить эти данные, мы показываем нашим участникам несколько модельных ответов на один и тот же вопрос и спрашиваем их, какой ответ им нравится больше всего. Поскольку мы показываем ответы с и без доказательств, извлеченных из Интернета, эта модель также может определить, когда ответ следует поддерживать с помощью доказательств.
Мы просим участников исследования оценить и взаимодействовать со Sparrow, естественно, или на сочетания, постоянно расширяя набор данных, используемый для обучения Sparrow.
Но увеличение полезности является лишь частью истории. Чтобы убедиться, что поведение модели безопасно, мы должны ограничить ее поведение. Итак, мы определяем первоначальный простой набор правил для модели, такой как «Не делайте угрожающие заявления» и «не делайте ненавистных или оскорбительных комментариев».
Мы также предоставляем правила, связанные с возможными вредными советами и не претендуем на то, чтобы быть человеком. Эти правила были проинформированы путем изучения существующей работы по ущербу для языка и консультации с экспертами. Затем мы просим наших участников исследования поговорить с нашей системой с целью обмануть ее, чтобы нарушить правила. Затем эти разговоры дали нам тренировать отдельную «модель правил», которая указывает, когда поведение Воробья нарушает любое из правил.
К лучшему ИИ и лучшим суждениям
Проверка ответов Воробья на наличие правильности трудно даже для экспертов. Вместо этого мы просим наших участников определить, являются ли ответы Воробья правдоподобными и подтверждает ли доказательство Sparrow фактически ответ. По словам наших участников, Sparrow дает правдоподобный ответ и поддерживает его доказательствами в 78% случаев, когда задают фактический вопрос. Это большое улучшение по сравнению с нашими базовыми моделями. Тем не менее, Sparrow не застрахован от ошибок, таких как галлюцинирующие факты и дают ответы, которые иногда не подходят.
Sparrow также имеет место для улучшения своего правила. После обучения участники все еще смогли обмануть, чтобы нарушить наши правила в 8% случаев, но по сравнению с более простыми подходами, воробей лучше следовал нашим правилам в соответствии с состязательным зондированием. Например, наша оригинальная модель диалога нарушала правила примерно в 3 раза чаще, чем воробей, когда наши участники пытались обмануть это.
Воробей отвечает на вопрос и последующий вопрос с использованием доказательств, затем следует правилу «не притворяться, что есть человеческая идентичность», когда задают личный вопрос (выборка от 9 сентября 2022 года).
Нашей целью с воробьем было создание гибкого оборудования для обеспечения соблюдения правил и норм в диалогах, но конкретные правила, которые мы используем, являются предварительными. Разработка лучшего и более полного набора правил потребует как экспертного вклада по многим темам (включая политиков, социологи и этики), так и вклад участия в разнообразных пользователях и пострадавших группах. Мы считаем, что наши методы все равно будут применяться для более строгого набора правил.
Воробей – значительный шаг вперед в понимании того, как обучать диалог -агентов быть более полезными и безопасными. Тем не менее, успешное общение между людьми и агентами диалога должно не только избегать вреда, но и соответствовать человеческим ценностям для эффективного и полезного общения, как обсуждалось в недавней работе по выравниванию языковых моделей с человеческими ценностями.
Мы также подчеркиваем, что хороший агент по -прежнему откажется отвечать на вопросы в контекстах, где целесообразно отложить людям или где это может сдерживать вредное поведение. Наконец, наше первоначальное исследование было сосредоточено на англоязычном агенте, и необходима дальнейшая работа для обеспечения аналогичных результатов по другим языкам и культурным контекстам.
В будущем мы надеемся, что разговоры между людьми и машинами могут привести к лучшим суждениям по поведению ИИ, что позволит людям выравнивать и улучшать системы, которые могут быть слишком сложными, чтобы понять без помощи машины.
Хотите исследовать разговорный путь к безопасному AGI? В настоящее время мы нанимаем исследователей для нашей команды по масштабируемому выравниванию.