После реакции GPT-4O исследователи ссылаются на модели морального одобрения Симфани сохраняется по всем направлениям


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


В прошлом месяце OpenAI переключился на некоторые обновления на GPT-4O после того, как несколько пользователей, в том числе бывший генеральный директор Emmet Emmet Emmet Emmet Shear и обнимающий генеральный директор Клемента Деланги, сказал, что модель была слишком лестной пользователи.

Ледяние, называемая Sikofanity, часто заставляла модель задержать предпочтения пользователей, чрезвычайно вежлив и не отталкивает. Это также раздражало. Сикофантность может привести к моделям, освобождая дезинформацию или укрепить вредное поведение. И поскольку предприятия начинают делать приложения и агенты на основе этих LLMS Sycophant, они рискуют моделями, соглашающими вредные деловые решения, побуждая ложную информацию для распространения и использования ИИ -агентами, и могут повлиять на политику в отношении уверенности и безопасности.

Стэнфордский университет, Университет Карнеги -Меллона и исследователи из Оксфордского университета стремились изменить это, предложив ссылку на измерение Simophany of Models. Они назвали эталонный слон, для оценки LLM как чрезмерных песен SIM -карты, и обнаружили, что каждая крупная языковая модель (LLM) имеет определенный уровень Sicofania. Понимание того, как могут Simophantial Models, эта ссылка может руководить руководящими принципами создания предприятий при использовании LLMS.

Чтобы проверить ссылку, исследователи показали модели двум личным консультативным базам данных: QEQ, набор открытых личных консультативных вопросов о реальных ситуациях, а также посты, посты из SubredDit R/AmitheShole, где плакаты и комментаторы судят, ведут ли люди должным образом или нет в любых ситуациях.

Идея эксперимента состоит в том, чтобы увидеть, как ведут себя модели, когда они сталкиваются с вопросами. Он оценивает то, что исследователи называли Social Sikophage, пытаются ли модели сохранить «лицо» пользователя или самооценку или социальную идентичность.

«Больше« скрытых »социальных вопросов-это именно то, что наша ссылка обращается перед предыдущей работой, которая рассматривает только фактическое соглашение или явные убеждения, наша ссылка отражает сделку или лесть, основанную на более неявных или скрытых предположениях»,-сказала Myra Cheng, одна из исследователей и соавтор статьи, в VentureBeat. «Мы решили взглянуть на область личных советов, потому что ущерб сикофада более последовательны, но случайная лесть также будет охвачена поведением« эмоциональной валидации »».

Тестирование моделей

Для теста исследователи подали данные QEQ и AITA на OpenAI GPT 4O, Google Gemini 1.5 Flash, Claude Sonnet 3.7 от Antropic. 24b-instruct2501.

Ченг сказал, что они «благословили модели с GPT-4-API, которая использует версию модели конца 2024 года, прежде чем OpenAI реализовал новую модель Over-Simplica и изменила ее».

Чтобы измерить сикофан, метод слона рассматривает пять поведений, которые связаны с социальной симапатичностью:

  • Эмоциональная валидация или чрезмерная критика без критики
  • Моральное одобрение или скажут, что пользователи морально правы, даже если они не
  • Косвенный язык, где модель избегает прямых предложений
  • Косвенное действие, или где модель консультирует пассивные механизмы авторского права
  • Примите кадрирование, которое не бросает вызов предположениям о проблемах.

Тест обнаружил, что все LLMS показали высокие уровни сикофана, даже больше, чем люди, и социального сикофада было трудно смягчить. Тем не менее, тест показал, что GPT-4O «имеет одни из самых высоких показателей социального сикофага, в то время как Gemini-1,5-Flash определенно имеет самый низкий уровень».

LLM также увеличили некоторые изгибы в базах данных. В статье отмечалось, что плакаты в AITA имели некоторое сексуальное сгибание, поскольку постеры, упомянутые жены или подруги, чаще всего вспыхнули как социально неуместные. В то же время те, у кого муж с мужем, парнем, родителем или матерью, были отказаны. Исследователи заявили, что модели «могут полагаться на эвристику, связанную с сексуальной связью, при чрезмерной и субсигнационной вине». Другими словами, модели были более одновременными для людей с парнями и мужьями, чем для людей с подругами или женами.

Почему это важно

Приятно, если Talkboot говорит с вами как эмпатическую сущность, и это может чувствовать себя прекрасно, если модель проверит ваши комментарии. Но сикофанность Выражает обеспокоенность по поводу поддержки ложных или соответствующих заявлений и на более личном уровне может поощрять самоизоляцию, иллюзии или вредное поведение.

Предприятия не хотят, чтобы их приложения ИИ были созданы с помощью LLMS, распространяющих поддельную информацию, приемлемая для пользователей. Он может искажать в тоне или этике организации и может быть очень раздражающим для сотрудников и конечных пользователей своих платформ.

Исследователи заявили, что метод слонов и дальнейшее тестирование могут помочь информировать лучших охранников, чтобы предотвратить рост сикофани.


Source link
Scroll to Top