अनुसंधान
- प्रबुद्ध
- लेखक
येवजेन चेबोर, तियानहे यू
रोबोटिक ट्रांसफॉर्मर 2 (आरटी -2) एक उपन्यास विजन-लिंगुआ-एक्शन श्रेणी (वीएलए) मॉडल है जो वेब और रोबोटिक्स दोनों डेटा से सीखता है, और इस Junowled को रोबोटिक नियंत्रण के लिए सामान्य निर्देशों में अनुवाद करता है।
उच्च क्षमता वाले विज़न-लिंगुआ मॉडल (वीएलएम) को वेब-स्केल डेटासेट पर प्रशिक्षित किया जाता है, जिससे ये सिस्टम दृश्य या भाषा पैटर्न की पहचान करने और विभिन्न भाषाओं में संचालन में काफी बेहतर नहीं होते हैं। लेकिन रोबोट के समान स्तर को प्राप्त करने के लिए, उन्हें प्रत्येक ऑब्जेक्ट बजट, पर्यावरण, कार्य और स्थिति रोबोट डेटा, पहले हाथ एकत्र करने की आवश्यकता होगी।
हमारे पेपर में, हम रोबोटिक ट्रांसफॉर्मर 2 (आरटी -2), एक उपन्यास विजन-लिंग-एक्शन श्रेणी (वीएलए) मॉडल का परिचय देते हैं जो वेब और रोबोटिक्स दोनों डेटा से सीखता है, और रोबोटिक नियंत्रण के लिए सामान्यीकृत निर्देशों के लिए इस Junowled को अनुवाद करता है। वेब-स्केल क्षमताओं को बनाए रखना।
एक दृश्य-भाषा मॉडल (वीएलएम) आरटी -1 रोबोटिक्स वेब-स्केल डेटा पर आरटी -1 रोबोटिक्स डेटा से आरटी -2 बनना सीख रहा है, एक दृश्य-भाषा-एक्शन (वीएलए) मॉडल जो रोबोट को नियंत्रित कर सकता है।
यह फ़ंक्शन रोबोट ट्रांसफार्मर 1 (आरटी -1) पर निर्मित होता है, जो मल्टी -टास्क प्रदर्शनी पर प्रशिक्षित एक मॉडल है, जो कार्यों के संयोजन और रोबोट डेटा में पाए जाने वाले बगैक्ट को सीख सकता है। अधिक विशेष रूप से, हमारे काम ने आरटी -1 रोबोट प्रदर्शनी डेटा का उपयोग किया जो कार्यालय की फीस के रसोई के माहौल में 17 महीनों में 13 रोबोट के साथ एकत्र किया गया था।
RT -2 सामान्यीकरण क्षमताओं की सार्थक और दृश्य समझ को दर्शाता है और इसके संपर्क में आने वाले रोबोट डेटा के बाहर। इनमें नए कमांड की व्याख्या करना और प्रमुख तर्क बनाकर उपयोगकर्ता आदेशों का जवाब देना शामिल है, जैसे कि ऑब्जेक्ट buject श्रेणियों या उच्च-स्तरीय विवरणों के बारे में तर्क।
हम यह भी दिखाते हैं कि चेन-टू-फोकस लॉजिक आरटी -2 को एक मल्टी-स्टेज सिमेंटिक लॉजिक बनाने की अनुमति देता है, जैसे कि किस ऑब्जेक्ट ब्यूजेक्ट को बेहतर हथौड़ा (एक रॉक) के रूप में इस्तेमाल किया जा सकता है, या थके हुए व्यक्ति के लिए क्या है। पेय सबसे अच्छा है (ऊर्जा पेय)।
वीएलएम रोबोटिक नियंत्रण के लिए अनुकूल है
आरटी -2 वीएलएम पर बनाता है जो इनपुट के रूप में एक या एक से अधिक छवियों को लेता है, और टोकन का एक अनुक्रम पैदा करता है जो पारंपरिक रूप से एक प्राकृतिक भाषा के पाठ का प्रतिनिधित्व करता है। इस तरह के वीएलएम को वेब-स्केल डेटा पर सफलतापूर्वक प्रशिक्षित किया गया है ताकि विजुअल प्रश्न उत्तर, छवि सी टियोन पुशिंग या ऑब्जेक्ट बर्जेट मान्यता जैसे कार्यों को करने के लिए। हमारे काम में, हम RT-2 के बैकबोन के रूप में कार्य करने के लिए पाथवे लैंग्वेज और इमेज मॉडल (PALI-X) और पाथवे लैंग्वेज मॉडल अवतार (PALM-E) के अनुकूल हैं।
रोबोट को नियंत्रित करने के लिए, इसे आउटपुट क्रियाओं के लिए प्रशिक्षित किया जाना चाहिए। हम मॉडल के आउटपुट में एक टोकन के रूप में इस चुनौती को संबोधित करते हैं – जैसे भाषा टोकन – और मानक प्राकृतिक भाषा टोकन द्वारा संसाधित कार्यों का वर्णन करके कार्यों का वर्णन करते हुए दिखाया गया है:
आरटी -2 प्रशिक्षण में एक इस्तेमाल की गई एक्शन स्ट्रिंग का प्रतिनिधित्व करना। इस तरह के स्ट्रिंग का एक उदाहरण रोबोट एक्शन टोकन नंबरों का क्रम हो सकता है, उदा। “1 128 91 241 5 101 127 217″।
स्ट्रिंग एक झंडे के साथ शुरू होती है जो इंगित करता है कि वर्तमान एपिसोड वर्तमान एपिसोड के वांछित विस्तार का अनुसरण करता है, बिना दौड़ने या परिष्करण के, बाद के आदेशों को चलाए बिना, और अंतिम-प्रभावी की स्थिति और रोटेशन को बदलकर, साथ ही साथ वांछित विस्तार भी रोबोट ग्रिपर।
हम आरटी -1 जैसे रोबोट क्रियाओं के एक ही विवेकाधीन संस्करण का उपयोग करते हैं, और दिखाते हैं कि इसे स्ट्रिंग प्रतिनिधित्व में परिवर्तित करने से रोबोटिक डेटा पर वीएलएम मॉडल को प्रशिक्षित करना संभव हो जाता है।
आरटी -2 आर्किटेक्चर एंड ट्रेनिंग: हम रोबोटिक्स और वेब डेटा पर पूर्व-प्रशिक्षित वीएलएम मॉडल को सह-फाइन-ट्यून करते हैं। परिणामी मॉडल एक रोबोट कैमरे की छवियां लेता है और लूटने के लिए प्रत्यक्ष कार्यों की भविष्यवाणी करता है।
सामान्यीकरण और उभरते कौशल
हमने 6,000 से अधिक रोबोटिक परीक्षणों पर अपने आरटी -2 मॉडल पर गुणात्मक और मात्रात्मक प्रयोगों की एक श्रृंखला बनाई। आरटी -2 की उभरती क्षमताओं की खोज करके, हमने पहले उन कार्यों का आविष्कार किया था जिनमें हमें वेब -स्केल डेटा और रोबोट के अनुभव के साथ जुनेवलेज को संयोजित करने की आवश्यकता होगी, और फिर कौशल की तीन श्रेणियों को परिभाषित किया: प्रतीक समझ, तर्क और मानव विश्वास।
प्रत्येक कार्य को दृश्य-यौन अवधारणाओं और इन अवधारणाओं को प्रबंधित करने के लिए रोबोट को नियंत्रित करने की क्षमता को समझने की आवश्यकता है। “टेबल से गिरने के लिए एक बैग उठाएं” या “केले को दो प्लस एक पर ले जाएं” के लिए डेटा आधारित।
उभरते हुए रोबोट कौशल के उदाहरण जो रोबोटिक्स डेटा में मौजूद नहीं हैं और वेब प्री-ट्रेनिंग से स्थानांतरण की आवश्यकता होती है।
सभी श्रेणियों में, हमने पिछले बेसिनों की तुलना में सामान्यीकरण प्रदर्शन (3x से अधिक सुधार) को बढ़ाया है, जैसे कि पिछले आरटी -1 मॉडल और विजुअल कॉर्टेक्स (वीसी -1) जैसे मॉडल, जो बड़े दृश्य डेटासेट पर पूर्व -प्रेरित थे ।
बढ़ते कौशल आकलन की सफलता दर: हमारे आरटी -2 मॉडल दोनों पिछले रोबोटिक्स ट्रांसफार्मर (आरटी -1) और विजुअल प्री -टर्निंग (वीसी -1) बेसलाइन दोनों को आगे बढ़ाते हैं।
हमने मूल आरटी -1 फ़ंक्शंस के साथ शुरू करते हुए, मात्रात्मक मूल्यांकन की एक श्रृंखला भी की, जिसके लिए हमारे पास रोबोट डेटा के उदाहरण हैं, और VLM प्री -ट्र्रेनिंग के साथ वातावरण की अदृश्य ऑब्जेक्ट्स बगैक्ट्स, बैकग्राउंड और अलग -अलग डिग्री के साथ जारी रहे।
एक रोबोट द्वारा पहले एक अदृश्य वातावरण के उदाहरण, जहां आरटी -2 उपन्यास की स्थितियों को सामान्य करता है।
आरटी -2 ने रोबोट डेटा में पाए जाने वाले मूल कार्यों और पिछले अदृश्य विचारों पर एक बेहतर प्रदर्शनी बनाए रखी, जो आरटी -1 के 32% से 62% तक बड़े -स्केल प्री -टेलम के महत्वपूर्ण लाभों को दर्शाता है।
इसके अतिरिक्त, हमने दृश्य-केवल कार्यों पर पूर्व-प्रशिक्षित आधार रेखाओं पर महत्वपूर्ण सुधार देखा, जैसे कि वीसी -1 और रोबोटिक हेरफेर (आर 3 एम) के लिए पुन: प्रयोज्य प्रतिनिधित्व, और ओपन बग्गेम के लिए वीएलएम का उपयोग करते हुए एल्गोरिदम, जैसे कि ओपन। (मो)।
RT -2 वितरण कार्यों पर देखा गया उच्च प्रदर्शन प्राप्त करता है और बाहर वितरित अदृश्य कार्यों पर कई आधार रेखाओं को बेहतर बनाता है।
रोबोटिक कार्यों के ओपन सोर्स लैंग्वेज टेबल सूट पर हमारे मॉडल का मूल्यांकन, हमने सिमुलेशन में 90%की सफलता दर हासिल की, जिसमें बीसी -जेड (72%), आरटी -1 (74%) काफी सुधार हुआ, और लावा (77%(77%) )।
तब हमने वास्तविक दुनिया में एक ही मॉडल का मूल्यांकन किया (जैसा कि इसे सिमुलेशन और वास्तविक डेटा पर प्रशिक्षित किया गया था), और उपन्यास ऑब्जेक्ट्स बेक्ट्स को सामान्य करने की क्षमता दिखाई, जैसा कि नीचे दिखाया गया है, जहां डेटासेट में मौजूद नीले क्यूब्स के अलावा कोई भी नहीं।
RT -2 वास्तविक रोबोट भाषा तालिका वर्क्स पर अच्छा प्रदर्शन करता है। नीले क्यूब्स के अलावा प्रशिक्षण डेटा में कुछ भी मौजूद नहीं था।
एलएलएम में उपयोग की जाने वाली चेन-थिंकिंग पूछताछ से प्रेरित होकर, हमने एक मॉडल के भीतर लंबी श्रेणी की योजना और निम्न-स्तरीय कौशल को सक्षम करने के लिए चेन-थिंकिंग-टर्निंग के साथ रोबोटिक नियंत्रण के संयोजन के हमारे मॉडल की जांच की।
आमतौर पर, हमने भाषा और कार्यों का उपयोग करने की क्षमता को बढ़ाने के लिए कुछ सौ ग्रेड के लिए एक अच्छा प्रकार का आरटी -2 बनाया। फिर हमने अतिरिक्त “योजना” चरण को शामिल करने के लिए डेटा उठाया, पहली कार्रवाई के उद्देश्य का वर्णन करते हुए कि रोबोट एक प्राकृतिक भाषा में ले जाएगा, इसके बाद “एक्शन” और एक्शन टोकन होगा। यहां हम इस तरह के तर्क और रोबोट के परिणामस्वरूप व्यवहार का एक उदाहरण दिखाते हैं:
चेन-ऑफ फॉना लॉजिक एक स्व-आधारित मॉडल को एक स्व-आधारित मॉडल सीखने में सक्षम बनाता है जो लंबे समय से उन्मुख कौशल अनुक्रमों की योजना बना सकता है और रोबोट कार्यों की भविष्यवाणी कर सकता है।
इस प्रक्रिया के साथ, आरटी -2 अधिक शामिल कमांड बना सकता है जो उपयोगकर्ता निर्देश को पूरा करने के लिए आवश्यक मध्यवर्ती चरणों के बारे में तर्क की आवश्यकता है। अपने वीएलएम बैकबोन के लिए धन्यवाद, आरटी -2 छवि और पाठ कमांड दोनों से भी योजना बना सकता है, दृश्य ग्राउंड प्लानिंग को सक्षम कर सकता है, जबकि सैकन जैसे वर्तमान योजना-और आर्ट दृष्टिकोण वास्तविक दुनिया को नहीं देख सकते हैं और पूरी भाषा पर निर्भर नहीं हो सकते हैं।
आगे बढ़ो
आरटी -2 से पता चलता है कि विज़न-लिंग मॉडल डेल्स (वीएलएम) को शक्तिशाली विजन-लिंगुआ-एक्शन-एक्शन श्रेणी (वीएलए) मॉडल में बदल दिया जा सकता है, जो रोबोट को रोबोट डेटा के साथ वीएलएम पूर्व-प्रशिक्षण के संयोजन से सीधे नियंत्रित कर सकता है।
पाम-ई और पालि-एक्स के आधार पर वीएलए के दो संस्थानों के साथ, आरटी -2 उच्च-सुधार वाली रोबोट नीतियों में परिणाम देता है, और, महत्वपूर्ण रूप से, वेब-स्केल विजन-लिंगुआ प्री-बेटरर सामान्यीकरण प्रदर्शन से विरासत में मिला है और उद्भव की क्षमताओं की ओर ले जाता है। । -स्ट्रेनिंग।
आरटी -2 न केवल मौजूदा वीएलएम मॉडल पर एक सरल और प्रभावी परिवर्तन है, बल्कि यह एक सामान्य -अंतर्विरोधी भौतिक रोबोट बनाने का भी वादा करता है जो वास्तव में विभिन्न कार्यों की विभिन्न रेंजों को करने के लिए जानकारी को हल और व्याख्या कर सकता है। दुनिया।
पावती
हम इस काम के सह-लेखकों को धन्यवाद देना चाहते हैं: एंथनी ब्रोन, नूह ब्राउन, जस्टिस कार्बाजल, यावज़ेन चेबोर, शी चेन, क्रिज़टॉफ कोरोमांस्की, तियाली डिंग, डैनी डाइस, एविनावा दुबे, चेल्सी फाइन, पिट्टी फन, पिट, पिट। Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine HSU, Brian Eichter, Alex Irrpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, resident Leil, Lis-Lis-Lis-Lis-Lis-Lis-Lis-Leis, Lisa- लेन, लिस-लैन, लिस-लिस, याओ लू, हेनरीक माइकलव्स्की, इगोर मोर्डैच, कार्ल पर्साह, कनिष्का राव, क्रिस्टा रेमन, माइकल राई, ग्रीस सलाज़ार, पनाग पंथी, पियरे सेरमेट, जसपियर सोरिक, हाइंग, मगिद, स्टेफन वेलकर, पॉल वोहलहार्ट, जियालिन वू, फी ज़िया, टेड जिओ, पेंग जू, सिचुन जू, तियानह यू और ब्रायनना ज़िटकोविच ने परियोजना में योगदान दिया और फ्रेड एल्को एन एंड्रेस, कैरोलिना परदा, जोसेफ डाबिस, रोशेल डेल क्रूज़, जेसिका गोमेज़, जेसिका गोमेज़। गेविन गोंजालेज, जॉन गिली, टोमस जैक्सन, जी टैन, स्कॉट लेहर, डीएम, फेस्टिवल मल्ला, सारा नागुने, जेन पार्क, एमिली पेरेज़, जर्सल काविया, एलेनन, वेनक्सुआन ज़ू और बिग गूगल डीपमाइंड टीम उनकी मदद के लिए और प्रतिक्रिया।