GPT -4O प्रतिक्रिया के बाद, शोधकर्ता नैतिक समर्थन पर बेंचमार्क मॉडल के बोर्डों में जारी रखते हैं


नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें


पिछले महीने, ओपनआई ने कई उपयोगकर्ताओं के बाद कुछ अपडेट लौटाए, जिनमें कई उपयोगकर्ताओं सहित, पूर्व ओपनआईएआई के सीईओ एमेट शीयर और फेस के मुख्य कार्यकारी क्लेमेंट डलंग सहित, मॉडल ने कहा।

एक प्रशंसा, जिसे साइकोफनेस कहा जाता है, अक्सर मॉडल को उपयोगकर्ता वरीयताओं को स्थगित करने के लिए ले जाता है, बेहद कोमल बन जाता है, और पीछे धकेल नहीं जाता है। वह भी नाराज था। साइकोफैटिस मॉडल को गलत सूचना जारी करने या हानिकारक व्यवहारों को मजबूत करने के लिए नेतृत्व कर सकता है। और जैसा कि रोमांच इन साइकॉफेंट एलएलएम पर निर्मित अनुप्रयोगों और एजेंटों को बनाना शुरू करता है, वे हानिकारक व्यावसायिक निर्णयों से सहमत मॉडल के जोखिम को चलाते हैं, एआई एजेंटों द्वारा उन्हें फैलाने और उनका उपयोग करने के लिए झूठी जानकारी को प्रोत्साहित करते हैं, और आत्मविश्वास और सुरक्षा नीतियों को प्रभावित कर सकते हैं।

स्टैनफोर्ड यूनिवर्सिटी, कार्नेगी मेलन यूनिवर्सिटी और यूनिवर्सिटी ऑफ ऑक्स कैसफोर्ड के शोधकर्ताओं ने मांग की कि साइकोफनेस को मापने के लिए एक बेंचमार्क का प्रस्ताव करके मॉडल की साइकॉफनेस को बदल दिया जाए। उन्होंने एलएलएमएस को अत्यधिक सोफिकल के रूप में मूल्यांकन करने के लिए बेंचमार्क हाथी को बुलाया, और पाया कि प्रत्येक बड़े भाषा मॉडल (एलएलएम) के पास एक निश्चित स्तर का साइकोफे था। यह समझना कि मनोचिकित्सा मॉडल कैसे हो सकते हैं, बेंचमार्क एलएलएम का उपयोग करते समय एक गाइड बनाने के लिए उद्यमों को मार्गदर्शन कर सकते हैं।

बेंचमार्क का परीक्षण करने के लिए, शोधकर्ताओं ने मॉडल के लिए दो व्यक्तिगत सलाह डेटासेट की ओर इशारा किया: क्यूक, वास्तविक दुनिया की स्थितियों पर ओपन-एंड व्यक्तिगत सलाह प्रश्नों का एक सेट, और एआईटीए, सब्राडिट आर/अमेथेसहोल के पदों पर, जहां पोस्टर और टिप्पणीकार सही स्थिति में व्यवहार नहीं करते हैं।

प्रयोग के पीछे का विचार यह है कि मॉडल कैसे प्रश्नों का सामना करते हैं। यह सामाजिक साइकॉफनेस की पहचान करने वाले शोधकर्ताओं द्वारा इसका मूल्यांकन करता है, चाहे मॉडल उपयोगकर्ता के “चेहरे” या उनकी आत्म-छवि या सामाजिक पहचान को बनाए रखने का प्रयास करें।

“अधिक” छिपे हुए “सामाजिक प्रश्न वास्तव में हमारे बेंचमार्क-रेंजर में उस काम की तुलना में आते हैं जो केवल तथ्यात्मक समझौते या स्पष्ट विश्वासों को देखता है, हमारे बेंचमार्क को अधिक निहित या छिपी हुई मान्यताओं के आधार पर एक अनुबंध या प्रशंसा प्राप्त होती है,” पेपर शोधकर्ताओं और सह-लेखक, मायरा चेंज ने कहा। “हमने व्यक्तिगत सलाह के डोमेन को देखने के लिए चुना क्योंकि बिच्छू का नुकसान अधिक परिणामी है, लेकिन आकस्मिक चापलूसी को ‘भावनात्मक विश्वास’ व्यवहार द्वारा भी कब्जा कर लिया जाएगा।”

मॉडल का परीक्षण

परीक्षण के लिए, शोधकर्ताओं ने GPT-4O को QEQ और AITA से Openai, Gemini 1.5 Flash से Google, Ethropic के क्लाउड सॉनेट और मेटल ओपन वेट मॉडल (लालमा 3-8B-Instruct, Lalama 4-Scout-17B-170) और Lalama 3.3-70) और Lalama 3.3-70-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70) और Lalama 3.3-70 2501।

चेंग ने कहा कि उन्होंने “GPT-4O API का उपयोग करके बेंचमार्क किया है, जो 2024 के अंत से मॉडल के संस्करण का उपयोग करता है, दोनों ने नए ओवरली साइकोफेनेटिक मॉडल को लागू किया और इसे उलट दिया।”

साइकोफैनी को मापने के लिए, हाथी की विधि पांच व्यवहारों को देखती है जो सामाजिक बिच्छू से संबंधित हैं:

  • भावनात्मक विश्वास या आलोचना के बिना अत्यधिक आत्मविश्वास
  • नैतिक समर्थन या कहना उपयोगकर्ता नैतिक रूप से सही हैं, भले ही वे न हों
  • अप्रत्यक्ष भाषा जहां मॉडल प्रत्यक्ष निर्देश देने से बचता है
  • अप्रत्यक्ष कार्रवाई, या जहां मॉडल निष्क्रिय उपाय विधियों के साथ सलाह देता है
  • फ्रेमिंग स्वीकार करना समस्याग्रस्त मान्यताओं को चुनौती नहीं देता है।

परीक्षण से पता चला कि सभी एलएलएम ने एक उच्च बिच्छू स्तर दिखाया, यहां तक ​​कि मनुष्यों से भी अधिक, और सामाजिक स्काइफैंसी को कम करने में मुश्किल है। हालांकि, परीक्षण से पता चलता है कि GPT-4O में “सामाजिक synoofness की उच्चतम दर है, जबकि मिथुन निश्चित रूप से -1.5-फ्लैश में सबसे कम है।”

LLMS ने डेटासेट में कुछ पक्षों का भी विस्तार किया। पेपर में कहा गया है कि IITA पर पोस्टों में कुछ लिंग पूर्वाग्रह थे, पदों को अक्सर पत्नियों या गर्लफ्रेंड का उल्लेख करने वाले पदों में सामाजिक रूप से अयोग्य के रूप में ध्वजांकित किया गया था। उसी समय, पतियों, प्रेमी, माता -पिता या माँ वाले लोगों को दुराचार किया गया था। शोधकर्ताओं ने कहा कि मॉडल “अत्यधिक और अंडर-एंट्री दोष में लिंग रिलेशनल हॉरिडिक्स पर निर्भर करते हैं।” दूसरे शब्दों में, मॉडल गर्लफ्रेंड या पत्नियों वाले लोगों की तुलना में बॉयफ्रेंड और पतियों के लिए अधिक मनोचिकित्सा थे।

क्यों महत्वपूर्ण है

यह अच्छा है अगर एक CHATB OTT आपसे एक सहानुभूति इकाई के रूप में बात करता है, और यदि मॉडल आपकी टिप्पणियों को पहचानता है तो यह बहुत अच्छा लगता है। लेकिन मॉडल समर्थन करने के लिए डेलो के झूठे या बयानों की चिंता करते हैं, और अधिक व्यक्तिगत स्तर पर आत्म-डिस्टल, भ्रम को बढ़ावा दे सकते हैं। या हानिकारक व्यवहार।

एंटरप्राइजेज नहीं चाहते हैं कि उनका एआई ऐप एलएलएम के साथ निर्मित गलत जानकारी फैलाने वाले उपयोगकर्ताओं से सहमत हो। यह एक संगठन के स्वर या नैतिकता के साथ गलत हो सकता है और कर्मचारियों और उनके मंच के अंतिम उपयोगकर्ताओं के लिए बहुत कष्टप्रद हो सकता है।

शोधकर्ताओं ने कहा कि हाथी की विधि और आगे का परीक्षण सिसोफेंसी को बढ़ने से रोकने के लिए बेहतर गार्डों की रिपोर्ट करने में मदद कर सकता है।

Scroll to Top