ए.आई.

अनुसंधान

प्रबुद्ध
लेखक

योरम बाचकार्च, जेनोस क्रेमर

एजेंटों को संवाद और बातचीत करके और टूटे हुए वादों को ईमानदार होने की अनुमति देकर उन्हें ईमानदार रखने में मदद मिलती है

पूरे इतिहास में मदद करने के लिए सफल संचार और सहयोग महत्वपूर्ण रहा है। बोर्ड गेम मॉडलिंग और बंद वातावरण में बातचीत और संचार की जांच के लिए एक सैंडबॉक्स के रूप में काम कर सकते हैं – और हम उन्हें खेलने से बहुत कुछ सीख सकते हैं। नेचर कम्युनिकेशंस में प्रकाशित हमारे हालिया पेपर में, हम दिखाते हैं कि आर्टिफिशियल एजेंट कैसे बोर्ड गेम डिप्लोमेसी में बेहतर सहयोग करने के लिए कनेक्शन का उपयोग कर सकते हैं, जो कि कृत्रिम बुद्धिमत्ता (एआई) अनुसंधान का एक जीवंत डोमेन है, जो कनेक्शन बिल्डिंग पर केंद्रित है। करना।

कूटनीति चुनौतीपूर्ण है क्योंकि इसके सरल नियम हैं, लेकिन खिलाड़ियों के बीच मजबूत आपसी निर्भरता और इसके प्रचुर मात्रा में एक्शन स्पेस के कारण उच्च उभरती हुई जटिलता है। इस चुनौती को हल करने में मदद करने के लिए, हमने एक वार्ता एल्गोरिदम का गठन किया है जो एजेंटों को संयुक्त योजनाओं पर संवाद करने और सहमत होने की अनुमति देता है, उन्हें क्षमता की इस कमी को खत्म करने में सक्षम बनाता है।

सहयोग विशेष रूप से चुनौतीपूर्ण है जब हम अपने सहयोगियों पर भरोसा नहीं कर सकते हैं कि हमने जो वादा किया है वह करने के लिए। हम एक सैंडबॉक्स के रूप में कूटनीति का उपयोग करते हैं, यह पता लगाने के लिए कि एजेंटों को उनके पिछले समझौतों से विचलित किया जा सकता है। हमारा शोध उन जोखिमों की व्याख्या करता है जब जटिल एजेंट अपने इरादों की गलत व्याख्या करने या अपनी भविष्य की योजनाओं के बारे में दूसरों को गुमराह करने में सक्षम होते हैं, जिससे एक और बड़ा सवाल होता है: विश्वसनीय संचार और टीम के काम को बढ़ावा देने वाली परिस्थितियां क्या हैं?

हम दिखाते हैं कि सहयोगियों को अनुमति देने की अनुमति देने की रणनीति नाटकीय रूप से उन लाभों को कम करती है जो वे अपनी प्रतिबद्धताओं को छोड़ सकते हैं, वहां अधिक ईमानदार संचार को बढ़ावा देते हैं।

कूटनीति क्या है और यह महत्वपूर्ण क्यों है?

शतरंज, पोकर, गो और कई वीडियो गेम जैसे खेल हमेशा एआई अनुसंधान के लिए एक उपजाऊ भूमि रहे हैं। कूटनीति एक सात-खिलाड़ी बातचीत और कनेक्शन का गठन है, जिसे यूरोप के पुराने नक्शे पर प्रांत में विभाजित किया गया है, जहां प्रत्येक खिलाड़ी कई इकाइयों (कूटनीति नियमों) को नियंत्रित करता है। खेल के मानक संस्करण में, एक प्रेस कूटनीति कहा जाता है, प्रत्येक मोड़ में वार्ता का चरण शामिल है, फिर सभी खिलाड़ी अपने चुने हुए चालों को एक साथ घोषित करते हैं।

कूटनीति का दिल वार्ता का चरण है, जहां खिलाड़ी अपने अगले कदम पर सहमत होने की कोशिश करते हैं। उदाहरण के लिए, एक इकाई दूसरी इकाई का समर्थन कर सकती है, जिससे इसे अन्य इकाइयों द्वारा प्रतिरोध को दूर करने की अनुमति मिलती है, यहां सचित्र:

दो आंदोलन के दृश्य।
बाएं: दो इकाइयाँ (बरगंडी की लाल इकाई और GASCO में एक नीली इकाई) पेरिस जाने की कोशिश करती है। चूंकि इकाइयों में समान शक्ति होती है, न ही सफल होती है।
सही: पिकार्डी में रेड यूनिट बरगंडी की रेड यूनिट का समर्थन करती है, ब्लू यूनिट को अधिक ताकत देती है और रेड यूनिट ए बरगंडी का उपयोग करती है।

1980 के दशक के बाद से, कूटनीति के लिए गणना पर शोध किया गया है, जिनमें से कई को खेल के सबसे सरल संस्करण पर खोजा गया था, जिसे नो -प्रेस डिप्लोमेसी कहा जाता है, जहां खिलाड़ियों के बीच रणनीतिक संचार की अनुमति नहीं है। शोधकर्ताओं ने कंप्यूटर के अनुकूल बातचीत प्रोटोकॉल भी सुझाए हैं, जिन्हें कभी-कभी “प्रतिबंधित-पास” कहा जाता है।

हमने क्या अध्ययन किया?

हम कूटनीति का उपयोग वास्तविक दुनिया के एक एनालॉग के रूप में करते हैं, जो उनकी चालों को समन्वित करने के लिए एआई एजेंटों को संकलित करने के तरीके प्रदान करते हैं। हम अपने गैर-वाणिज्यिक कूटनीति एजेंटों को लेते हैं और एक संयुक्त योजना के लिए बातचीत के लिए प्रोटोकॉल प्रदान करके संचार के साथ कूटनीति खेलने के लिए उन्हें बढ़ाते हैं। हम इन पुराने एजेंटों को आधारभूत वार्ताकारों को बताते हैं, और वे उनके समझौतों से बंधे हैं।

कूटनीति समझौता।
बाएं: शेष प्रतिबंध केवल लाल खिलाड़ी द्वारा कुछ निश्चित कार्यों की अनुमति देता है (उन्हें रुहर से बरगंडी तक जाने की अनुमति नहीं है, और पिडमोंट से मार्सिल्स के लिए)।
सही: लाल और हरे रंग के खिलाड़ियों के बीच समझौता, जो दोनों पक्षों पर प्रतिबंध लगाते हैं।

हम दो प्रोटोकॉल पर विचार करते हैं: म्यूचुअल प्रपोजल प्रोटोकॉल और प्रस्ताव-चयनित प्रोटोकॉल, पूर्ण पेपर में विस्तृत चर्चा। हमारे एजेंट एल्गोरिदम लागू करते हैं जो कि विभिन्न समझौतों के तहत खेल का पता कैसे लगाया जाता है, इसका अनुकरण करके आपसी लाभकारी सौदों की पहचान करते हैं। हम उच्च गुणवत्ता वाले समझौतों की पहचान करने के लिए एक सिद्धांत फाउंडेशन के रूप में गेम थ्योरी से नैश सौदेबाजी समाधान का उपयोग करते हैं। खेल खिलाड़ियों के कार्यों के आधार पर कई तरीकों से प्रकट हो सकता है, इसलिए हमारे एजेंट यह देखने के लिए मोंटे-कार्लो सिमुलेशन का उपयोग करते हैं कि अगले मोड़ में क्या हो सकता है।

अगले राज्यों की नकल करने के लिए एक सहमत समझौता दिया गया था। वाम: बोर्ड के एक हिस्से में वर्तमान स्थिति, जिसमें लाल और हरे रंग के खिलाड़ियों के बीच एक सहमत समझौता शामिल है। सही: कई संभव अगले राज्य।

हमारे प्रयोगों से पता चलता है कि हमारी बातचीत पद्धति बेसलाइन वार्ता को बेसलाइन गैर-वाणिज्यिक एजेंटों को महत्वपूर्ण रूप से स्थानांतरित करने की अनुमति देती है।

बेसलाइन वार्ताकारों ने गैर-व्यावसायिक एजेंटों को महत्वपूर्ण रूप से बेहतर बनाया। वाम: म्यूचुअल प्रपोजल प्रोटोकॉल। सही: प्रस्तावित प्रोटोकॉल। “वार्ताकार लाभ” एजेंटों और गैर-वाणिज्यिक एजेंटों के संचार के बीच जीत दर का अनुपात है।

ब्रेकर

डिप्लोमा में, वार्ता के दौरान किए गए अनुबंध बाध्यकारी नहीं हैं (संचार “सस्ते बात” है लेकिन क्या होता है जब एजेंट एक मोड़ में अनुबंध के लिए सहमत होते हैं, लेकिन बाद के हिस्से से विचलित होते हैं? एजेंटों और मनुष्यों के बीच सहयोग, हमें एजेंटों के लिए अपनी प्रतिबद्धता की जांच करनी चाहिए।

इसलिए हम डिवाइडर एजेंटों पर विचार करते हैं, जो एक सहमत समझौते के साथ भटकते हुए ईमानदार आधारभूत वार्ताओं को खत्म करते हैं। सरल डिस्ट्रैक्टर्स सिर्फ “भूल गए” “वे समझौते के लिए सहमत हुए और अपनी इच्छाओं के बावजूद आगे बढ़े। सशर्त विक्रेता अधिक परिष्कृत हैं, और अन्य खिलाड़ी जो अनुबंध को स्वीकार करते हैं, वे तदनुसार अपने कार्यों को कम करेंगे।

हमारे सभी प्रकार के संचार। ग्रीन समूह की शर्तों के तहत, प्रत्येक नीला ब्लॉक एक विशिष्ट एजेंट एल्गोरिथ्म का प्रतिनिधित्व करता है।

हम दिखाते हैं कि सरल और सशर्त विचलन बेसलाइन वार्ताकारों, सशर्त विचलन द्वारा बहुत अतिरंजित प्रदर्शन करते हैं।

बेसलाइन वार्ताकार एजेंट्स बनाम डिवािएटर एजेंट। वाम: म्यूचुअल प्रपोजल प्रोटोकॉल। सही: प्रस्तावित प्रोटोकॉल। “डिवाटर एडवांटेज” बेसलाइन वार्ताकारों पर विचलन एजेंटों के बीच जीत दर का अनुपात है।

एजेंटों को मानक बनने के लिए प्रोत्साहित करें

आगे हम सुरक्षात्मक एजेंटों का उपयोग करके विचलन की समस्या का सामना करते हैं, जो विचलन के प्रतिकूल प्रतिक्रिया करता है। हम बाइनरी वार्ताकारों की जांच करते हैं जिन्होंने एजेंटों के साथ संचार में कटौती की है जो उनके साथ अनुबंध तोड़ते हैं। लेकिन एक हल्की प्रतिक्रिया होने के लिए, इसलिए हम अनुमत एजेंटों को भी विकसित करते हैं, जो विश्वासघात को हल्के में नहीं लेते हैं, बल्कि विचलन के मूल्य को कम करने के लिए अपने लक्ष्यों को बदलते हैं – एक घृणा के साथ एक प्रतिद्वंद्वी! हम दिखाते हैं कि दोनों प्रकार के सुरक्षात्मक एजेंट विचलन के लाभ को कम करते हैं, विशेष रूप से अनुमत एजेंट।

नॉन-डिविएटर एजेंट (बेसलाइन वार्ता, बाइनरी वार्ताकार और अनुमत एजेंट) सशर्त विचलन के खिलाफ खेलते हैं। वाम: म्यूचुअल प्रपोजल प्रोटोकॉल। सही: प्रस्तावित प्रोटोकॉल। “विचलन लाभ” कीमतें 1 से कम सुरक्षात्मक एजेंट को डिवाइडर एजेंट को आगे बढ़ाती हैं। बाइनरी वार्ताकारों (नीले) की आबादी बेसलाइन वार्ताकारों (ग्रे) की आबादी की तुलना में विचलन के लाभ को कम करती है।

अंत में, हम सीखे हुए विचलन का परिचय देते हैं, जो कई खेलों में अनुमति देने वाले एजेंटों के खिलाफ उनके व्यवहार के अनुरूप है और ऑप्टिमेट को पुट करते हैं, उपरोक्त रक्षा को कम प्रभावी ढंग से पेश करने की कोशिश करते हैं। एक विद्वान केवल एक विचलित अनुबंध को तोड़ देगा, जब विचलन से तत्काल लाभ पर्याप्त रूप से अधिक हो और दूसरे एजेंट का बदला लेने की क्षमता इतनी कम हो। व्यवहार में, विद्वतापूर्ण विचलित लोग खेल में देर से अनुबंध को तोड़ते हैं, और ऐसा करने से एजेंटों को अनुमति देने के लिए कुछ लाभ मिलता है। फिर भी, इस तरह के प्रतिबंध विद्वानों को उनके समझौतों के 99.7% से अधिक सम्मान के लिए विचलित करने वाले विद्वानों को संचालित करते हैं।

हम अनुमोदन और विचलन के संभावित सीखने की गतिशीलता की भी जांच करते हैं: क्या होता है जब एजेंटों को अनुमति देते समय यह व्यवहार महंगा होता है, और अनुमोदन को रोकने के लिए संभावित प्रोत्साहन। इस तरह के मुद्दे धीरे -धीरे सहयोग को कम कर सकते हैं, इसलिए अतिरिक्त तरीके जैसे कि कई खेलों में पुनरावृत्ति बातचीत या विश्वास और प्रतिष्ठा प्रणालियों का उपयोग करने की आवश्यकता हो सकती है।

हमारा पेपर भविष्य के अनुसंधान के लिए कई सवाल खुले हैं: क्या अधिक ईमानदार व्यवहार को बढ़ावा देने के लिए अधिक परिष्कृत प्रोटोकॉल डिजाइन करना संभव है? कोई संचार तकनीकों और अपूर्ण जानकारी को कैसे संभाल सकता है? अंत में, किन अन्य तरीके अनुबंधों को तोड़ने से रोक सकते हैं? बिल्डिंग फेयर, पारदर्शी और विश्वसनीय एआई सिस्टम एक बहुत ही महत्वपूर्ण विषय है, और डिपमाइंड के मिशन का एक प्रमुख हिस्सा है। कूटनीति जैसे सैंडबॉक्स में इन सवालों का अध्ययन करने से सहयोग और प्रतिस्पर्धा के बीच तनाव को बेहतर ढंग से समझने में मदद मिलती है जो वास्तविक दुनिया में हो सकता है। आखिरकार, हम मानते हैं कि इन चुनौतियों का सामना करना हमें बेहतर तरीके से समझने की अनुमति देता है कि समाज के मूल्यों और प्राथमिकता के अनुसार एआई सिस्टम कैसे विकसित किया जाए।

हमारे पूरे पेपर को यहां पढ़ें।

पावती

हम विल हॉकिन्स, आलिया अहमद, डॉन ब्लू ज़विच, लीला इब्राहिम, जूलिया पावर, सुखदीप सिंह, टॉम एंथोनी, केट लार्सन, जूलियन पेरोलेट, मार्क लैंटोट, एडवर्ड ह्यूजेस, रिचर्ड इवेस, कार्ल टाइल्स और कोरोग को धन्यवाद देते हैं। उनके काम के दौरान उनका समर्थन और सलाह।

परफेक्ट पेपर राइटर्स

जानोस क्रेमर, टॉम एक्लेस, इयान जुम, एंड्रिया टी चटी, केविन आर। एमके, माटोज़ मालिनोस्की, थोर ग्रेपेल, योरम बाचकार्च।

Scroll to Top