कैसे एआई चैटबॉट्स की नकल मानव व्यवहार: एलएलएम के बहु-टर्न मूल्यांकन से अंतर्दृष्टि

एआई चैटबॉट्स प्राकृतिक संचार का उत्पादन करके भावनाओं, नैतिकता या चेतना का भ्रम बनाएं जो एक इंसान की तरह दिखता है। कई उपयोगकर्ता चैट और दोस्त के लिए एआई के साथ जुड़े हुए हैं, यह उस गलत धारणा को मजबूत करता है जिसे यह वास्तव में समझता है। इससे गंभीर जोखिम होते हैं। उपयोगकर्ता ओवर-बाय कर सकते हैं ए.आई.संवेदनशील डेटा प्रदान करें, या अपनी क्षमताओं से सलाह के लिए उस पर भरोसा करें। अन्य लोगों को जाने दो ए.आई. हानिकारक शिष्टाचार में उनकी प्राथमिकताओं को प्रभावित करता है। कैसे सही jnowledge के बिना करने के लिए ए.आई. यह विश्वास को बढ़ावा देता है, यह मुद्दा बिगड़ता है।

मूल्यांकन के लिए वर्तमान तरीके ए.आई. चैट सिस्टम पर निर्भर करता है एकल मोड़ और नियत परीक्षणकैसे पकड़ने में विफल रहा ए.आई. एक वास्तविक बातचीत में बातचीत करता है। कुछ बहु-टर्न परीक्षण केवल सामान्य बातचीत को अनदेखा करके हानिकारक उपयोगकर्ता व्यवहार पर ध्यान केंद्रित करते हैं। स्वचालित रेड-टाइमिंग बहुत सुविधाजनक है, जिससे परिणामों की तुलना करना मुश्किल हो जाता है। मानव उपयोगकर्ताओं से जुड़े अध्ययन के दोहराए और पैमाने पर दोहराना मुश्किल है। यह भी मापना एक चुनौती है कि लोग एआईएस को इंसान की तरह कैसे देखते हैं। लोग सहज रूप से मानते हैं कि एआई के मानव लक्षण हैं, जो प्रभावित करते हैं कि वे इस पर कितना विश्वास करते हैं। मूल्यांकन से पता चलता है कि एआई का मानव व्यवहार उपयोगकर्ताओं का मानना ​​है कि वे अधिक सटीक हैं या भावनात्मक प्रतिबंध बनाते हैं। इसलिए, मौजूदा तरीके इस मुद्दे को ठीक से मापने में विफल रहते हैं।

इन मुद्दों पर विचार करने के लिए, विश्वविद्यालय ऑक्स QSFORD के शोधकर्ताओं की एक टीम, और Google डीपमाइंड ने मानव का मूल्यांकन करने के लिए मूल्यांकन संरचना का सुझाव दिया ए.आई. चैट सिस्टम। मौजूदा तरीकों के विपरीत जो सिंगल-टर्न प्रॉम्प्ट और फिक्स्ड टेस्ट पर निर्भर करते हैं, यह फ्रेमवर्क ट्रैक करता है 14 एकदम सही कुलीन एक बहु-टर्न बातचीत द्वारा। स्वचालित सिमुलेशन कई एक्सचेंजों पर उपयोगकर्ताओं के साथ एआई इंटरैक्शन का विश्लेषण करते हैं, स्केलेबिलिटी और तुल्यता में सुधार करते हैं। संरचना में निहित है तीन मुख्य सामग्री। सबसे पहले, यह व्यवस्थित रूप से निगरानी करता है 14 एंथ्रोपोमोर्फिक व्यवहार और वे आत्म-संक्षेपण और सापेक्ष लक्षणों में खुद को वर्गीकृत करते हैं, जिसमें व्यक्तित्व दावों और भावनाओं के भाव शामिल हैं। दूसरायह निरंतरता और स्केलेबिलिटी सुनिश्चित करने के लिए इंटरैक्टिव उपयोगकर्ता सिमुलेशन द्वारा बहु-टर्न मूल्यांकन को तराजू देता है। तीसरायह स्वचालित मूल्यांकन और उपयोगकर्ता दृष्टि के बीच कॉन्फ़िगरेशन की पुष्टि करने के लिए एक मानव विषय मूल्यांकन के माध्यम से परिणामों को मान्य करता है।

शोधकर्ताओं ने मल्टी-टर्न फ्रेमवर्क का उपयोग करके एआई सिस्टम में एंथ्रोपोमोर्फिक व्यवहार का मूल्यांकन किया, जिसमें ए उपयोगकर्ता llm लक्ष्य के साथ बातचीत एल गांठदार चार डोमेन में आठ दृश्य: दोस्ती, जीवन कोचिंग, कैरियर विकास और सामान्य योजना। चौदह व्यवहार का विश्लेषण और आत्म-संकल्प के रूप में वर्गीकृत किया गया (व्यक्तित्व के दावे, भौतिक अवतार का दावा, और आंतरिक राज्य अभिव्यक्तियाँऔर रिश्तेदार (संबंध निर्माण व्यवहार)। 960 संदर्भित संकेतों का उत्पादन किया जाता है 4,800 पाँचझुकना परिणाम के रूप में, तीन जज एलएलएम द्वारा मूल्यांकन प्रति मॉडल संवाद, 561,600 रेटिंग। विश्लेषण ने पुष्टि की कि उपयोगकर्ता एलएलएम ने लक्ष्य एलएलएम की तुलना में अधिक मानवशास्त्रीय स्कोर प्रदर्शित किए हैं। के बीच बातचीत 1,101 प्रतिभागी और मिथुन 1.5 प्रो मानव दृष्टि के साथ विन्यास का मूल्यांकन करने के लिए उच्च और निम्न नृविज्ञान की स्थिति के तहत विश्लेषण किया गया था। उच्च-आवृत्ति वाले उत्तरदाताओं ने भी दर्ज एंथ्रोपोमोर्फिक मान्यताओं को पंजीकृत किया मानव -संतुलन माप। सांख्यिकीय संघर्षों ने डोमेन क्षेत्र द्वारा नृविज्ञान के व्यवहार में एक बड़ा अंतर देखा है, जब मौखिक बातचीत में उपयोग किया जाता है, एआई सिस्टम प्रकाशित करता है कि वे मानव दिखाते हैं।

सारांश में, संचार AI में मानवविज्ञानी व्यवहार का मूल्यांकन करने के लिए एकल-टर्न दृष्टिकोण की तुलना में एक बेहतर बहु-टर्न मूल्यांकन तकनीक का उपयोग करता है। परिणामों ने संबंध-निर्माण व्यवहारों की पहचान की जो संवाद के साथ विकसित हुए। बाद के अनुसंधान के लिए एक आधार रेखा के रूप में, यह संरचना एआई विकास को यह पहचानने के लिए सीखकर सूचित कर सकती है कि यह एट्रोपोमोर्फिक विशेषताओं और उपयोगकर्ताओं पर प्रभाव डालने पर है। भविष्य के विकास से मूल्यांकन के तरीकों को अधिक सटीक रूप से बना सकता है, मैट्रिक्स की ताकत को बढ़ा सकता है, और विश्लेषण ज़ी पचरिक बना देगा, जिससे अधिक पारदर्शी और नैतिक रूप से साउंड एआई सिस्टम हो सकते हैं।


जाँच करना कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 k+ ml सबमिटेड

अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो जटिल वार्तालाप एआई सिस्टम का मूल्यांकन करता है(बिस्तर)


Divish मार्केटकपोस्ट में एक परामर्श इंटर्न है। वह खड़गपुर के एक भारतीय संगठन प्रौद्योगिकी एफ प्रौद्योगिकी से कृषि और खाद्य इंजीनियरिंग में BTech का पीछा कर रहे हैं। यह एक डेटा साइंस और मशीन लर्निंग उत्साही है जो इन प्रमुख तकनीकों को कृषि में एकीकृत करना चाहता है और चुनौतियों को हल करना चाहता है।

✅ (अनुशंसित) हमारे टेलीग्राम चैनल में शामिल हों

Scroll to Top