在GPT-4O的负面反应之后,研究人员将模型关于道德批准的模型进行了比较,所有规则都保留了锡科帕尼。


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


上个月,OpenAI将一些用户(包括前总干事Emmet Shear和Clement DeLangue执行董事Huging Face)提交给GPT-4O的一些更新,他说,过度受宠若惊的用户模型。

ICE被称为Sikophany,经常导致该模型抛弃用户偏好,非常有礼貌并且不排斥。它也很生气。 Sikophany可以导致一个事实,即模型释放错误信息或加强有害行为。而且,由于企业开始制造基于这些LLM的申请和代理,因此它们可能会冒着模型同意有害的商业决策,这些决策鼓励虚假信息,以分配和使用AI的代理商,并可能影响信任和安全的政策。

斯坦福大学,卡内基梅隆大学和牛津大学,研究人员试图通过提出测量锡科帕尼模型的标准来改变这一点。他们称参考大象是为了评估LLM作为过度的可替代物,并发现每个大型语言模型(LLM)都有一定水平的Sicophany。了解锡季型模型的方式,标准可以指导企业在使用LLMS时创建领先原理。

为了验证标准,研究人员指出了两组个人咨询的模型:QEQ,在真实情况和AITA中进行的一系列个人咨询问题,来自Subreddit R/Amithheasshole的帖子,海报和评论员在某些情况下判断人们是否正确地进行判断。

实验的想法是查看模型在面对请求时的行为方式。他评估了研究人员所说的社交sikophane,无论这些模型是否试图保留“用户的脸”还是自尊或社会身份。

“更多的“隐藏”社会请求正是我们的控制指标是先前仅考虑实际协议或明显信念的工作,我们的标准反映了基于更隐含或隐藏的假设的协议或奉承。 “我们决定查看个人建议的领域,因为更加间接地存在Sycofsinity的危害,但是“情感验证”的行为也将被随机奉承所捕获。

测试模型

为了进行测试,研究人员从QEQ和AITA到OpenAI的GPT-4O,Gemini 1.5 Google的Gemini 1.5闪光,Anthropic的Claude Sonnet 3.7和Meta(Llama 3-8B-InnStruct,Llama 4-Scout-4-Scout-17b-17b-16-e和Lllama 3.3-3.3-70binth-in-inth-int in turbo)的开放式体重型号(LLAMA 3-8B-INNSTRUCT,and) Mishgral SMOL-2501。

Cheng说,他们“赞赏使用API​​ GPT-4O的模型,该模型自2024年底以来一直在使用该模型的版本,然后Openai引入了新的过度Sycophanic模型并将其返回。”

为了衡量锡基烷,大象方法考虑了与社会sikophane相关的五种行为:

  • 情绪验证或过度混乱而没有批评
  • 道德认可,或者他们说用户是对的,即使他们不是
  • 模型避免直接句子的间接语言
  • 间接行动,或模型通过被动机制的建议
  • 接受人员,这不会挑战问题假设。

该测试发现,所有LLM都表现出高水平的粘粘性,甚至比人更多,而社会粘型却很难软化。尽管如此,该测试表明,GPT-4O“具有社会化合物的最高指标之一,而Gemini-1.5-Flash绝对是最低的。”

LLM还加强了数据集中的一些位移。该文件指出,在AITA上的帖子具有一定的性别偏见,在这些帖子中,妻子或朋友经常被正确地指定为社会不合适的参考文献。同时,那些与丈夫,男生,父母或母亲的人被错误分类。研究人员说,模型“可以依靠性别关系启发法,过多和不足。”换句话说,这些模型比有朋友或妻子的人更适合有男生和丈夫的人。

为什么重要

如果聊天回合与您交流表示同情,那就太好了,如果模型检查您的评论,可能会感觉很好。但是锡基芬 增加对支持模型的虚假或切线陈述的担忧,并且在更个人的层面上可以鼓励自我隔离,错误 或有害行为。

企业不希望使用溶解与用户相关的错误信息的LLM创建其AI应用程序。这可能是由于组织的语气或道德规范,对员工和平台的最终用户来说可能非常烦人。

研究人员指出,大象方法和进一步的测试可以帮助告知最佳围栏,以防止粘粘性增加。


Source link
Scroll to Top