रोबोटिक्स से लेकर मेडिसिन से लेकर राजनीतिक विगल्स तक के क्षेत्र सभी प्रकार के सार्थक निर्णय लेने के लिए एआई सिस्टम को प्रशिक्षित करने की कोशिश कर रहे हैं। उदाहरण के लिए, एक भीड़ -भाड़ वाले शहर में बुद्धिमानी से यातायात को नियंत्रित करने के लिए एआई प्रणाली का उपयोग ड्राइवरों को सुरक्षा या स्थायित्व में सुधार करते समय अपने स्थानों पर जल्दी से अपने स्थानों तक पहुंचने में मदद कर सकता है।
दुर्भाग्य से, अच्छे निर्णय लेने के लिए एआई प्रणाली सिखाना आसान काम नहीं है।
सुदृढीकरण सीखने के मॉडल डेल्स हैं, जो यह ए.आई. निर्णय लेने की प्रणालियों को ध्यान में रखते हुए, वे अक्सर विफल होते हैं जब वे प्रशिक्षित कार्यों में भी छोटी विविधताओं का सामना करते हैं। ट्रैफ़िक के मामले में, एक मॉडल विभिन्न गति सीमाओं, लेन की संख्या या ट्रैफ़िक पैटर्न के साथ चौराहों के एक सेट को नियंत्रित करने के लिए संघर्ष कर सकता है।
विविध जटिल कार्यों के लिए सुदृढीकरण सीखने के मॉडल की विश्वसनीयता बढ़ाने के लिए, एमआईटी शोधकर्ताओं ने उन्हें प्रशिक्षित करने के लिए एक अधिक कुशल एल्गोरिथ्म पेश किया है।
एल्गोरिथ्म रणनीतिक रूप से एजेंट को प्रशिक्षित करने के लिए सर्वोत्तम कार्यों का चयन करता है ताकि यह संबंधित कार्यों के संग्रह में सभी कार्यों को प्रभावी ढंग से कर सके। ट्रैफ़िक सिग्नल नियंत्रण के मामले में, प्रत्येक कार्य में कार्य स्थान में एक चौराहा हो सकता है जिसमें शहर के सभी चौराहे शामिल हैं।
एल्गोरिथ्म की समग्र प्रभावशीलता में योगदान करने वाले चौराहों की संख्या पर ध्यान केंद्रित करके, यह विधि प्रशिक्षण लागत को कम रखने पर प्रभाव को अधिकतम करती है।
शोधकर्ताओं ने पाया कि उनकी तकनीक नकली कार्यों के सरणी पर मानक दृष्टिकोण की तुलना में पांच से 50 गुना अधिक कुशल है। दक्षता में यह लाभ एल्गोरिथ्म का एक तेज़ तरीका सीखने में मदद करता है, अंततः एआई एजेंट के प्रदर्शन में सुधार करता है।
“हम बहुत ही सरल एल्गोरिथ्म के साथ, ब्यूटसाइड सीएस के बाहर सोच के साथ, अविश्वसनीय संचालन में सुधार को देखने में सक्षम थे। थॉमस डी। और वर्जीनिया डब्ल्यू। कैबोट कैरियर विकास के एक सहयोगी प्रोफेसर कैथी वू कहते हैं, “एक एल्गोरिथ्म को अपनाने का एक बेहतर मौका है जो बहुत जटिल नहीं है, क्योंकि इसे लागू करना आसान है और यह दूसरों के लिए आसान है।” सिविल एंड एनवायरनमेंटल इंजीनियरिंग (CEE) और इंस्टीट्यूट फॉर डेटा, सिस्टम्स एंड सोसाइटी (IDSS), और प्रयोगशाला फॉर इंफॉर्मेशन एंड डिजीज सिस्टम्स (LID) के सदस्य।
वह सीईई ग्रेजुएट स्टूडेंट, मुख्य लेखक जंग-हून चो द्वारा कागज पर शामिल हो गई है; विंदुला जयवर्धन, इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान विभाग (ईईसीएस) विभाग के स्नातक छात्र; और सिरुई ली, आईडीएसएस स्नातक छात्र। तंत्रिका सूचना प्रसंस्करण प्रणालियों पर सम्मेलन में अनुसंधान प्रस्तुत किया जाएगा।
एक मध्य मैदान खोजें
शहर में कई चौराहों पर ट्रैफिक लाइट को नियंत्रित करने के लिए एल्गोरिथ्म को प्रशिक्षित करने के लिए, इंजीनियर आम तौर पर दो प्रमुख दृष्टिकोणों के बीच चयन करेगा। यह केवल प्रत्येक चौराहे के लिए एक एल्गोरिथ्म को प्रशिक्षित कर सकता है, उस चौराहे डेटा का उपयोग करके, या सभी चौराहों से डेटा का उपयोग करके बड़े एल्गोरिदम को प्रशिक्षित कर सकता है, और फिर इसे प्रत्येक पर लागू करें।
लेकिन प्रत्येक दृष्टिकोण अपने नकारात्मक हिस्से के साथ आता है। प्रत्येक कार्य के लिए एक अलग एल्गोरिथ्म प्रशिक्षण (जैसे कि एक चौराहा) एक समय -शोक प्रक्रिया है जिसे डेटा और गणना की भारी खुराक की आवश्यकता होती है, जबकि सभी कार्यों के लिए एक एल्गोरिथ्म को प्रशिक्षित करते हुए, अक्सर सबपर प्रदर्शन के लिए अग्रणी होता है।
वू और उनके सहयोगियों ने इन दोनों दृष्टिकोणों के बीच एक मीठी जगह मांगी।
अपनी विधि के लिए, वे कार्यों का एक सबसेट चुनते हैं और प्रत्येक कार्य के लिए स्वतंत्र रूप से एक एल्गोरिथ्म को प्रशिक्षित करते हैं। महत्वपूर्ण रूप से, वे रणनीतिक रूप से व्यक्तिगत कार्यों का चयन करते हैं जो सभी कार्यों पर एल्गोरिथ्म के समग्र प्रदर्शन में सुधार करने की संभावना रखते हैं।
वे शून्य-शॉट टी ट्रांसफर लर्निंग नामक सुदृढीकरण शिक्षा क्षेत्र से एक सामान्य रणनीति का लाभ देते हैं, जिसमें पहले से ही प्रशिक्षित मॉडल को आगे के प्रशिक्षण के बिना एक नए काम पर लागू किया जाता है। ट्रांसफर लर्निंग के साथ, मॉडल अक्सर नए पड़ोसी काम पर महत्वपूर्ण प्रदर्शन करता है।
वू कहते हैं, “हम जानते हैं कि यह सभी कार्यों पर प्रशिक्षित करने के लिए आदर्श होगा, लेकिन हम आश्चर्यचकित थे कि अगर हम उन कार्यों के सबसेट पर प्रशिक्षित कर सकते हैं, तो सभी कार्यों के लिए परिणाम लागू करें, और अभी भी प्रभाव देख सकते हैं,” वू कहते हैं
अपेक्षित ऑपरेशन को अधिकतम करने के लिए उन्हें किन कार्यों का चयन करना चाहिए, यह पहचानने के लिए, शोधकर्ताओं ने मॉडल-आधारित ट्रांसफर लर्निंग (एमबीटीएल) नामक एक एल्गोरिथ्म विकसित किया।
MBTL एल्गोरिथ्म के दो टुकड़े हैं। एक के लिए, यह मॉडल कितना अच्छा प्रदर्शन करेगा यदि यह प्रत्येक एल्गोरिथ्म कार्य के स्वतंत्र रूप से प्रशिक्षित है। फिर यह कितना कम हो जाएगा यदि प्रत्येक एल्गोरिथ्म का प्रभाव एक -दूसरे के काम में स्थानांतरित हो जाता है, जिसे सामान्यीकरण प्रदर्शन के रूप में जाना जाता है।
स्पष्ट रूप से मॉडलिंग सामान्यीकरण प्रदर्शन एमबीटीएल को नए काम पर प्रशिक्षण के मूल्य का अनुमान लगाने की अनुमति देता है।
MBTL इसे क्रमिक रूप से करता है, उस कार्य को चुनता है जो पहले उच्चतम प्रदर्शन लाभ की ओर जाता है, फिर अतिरिक्त कार्यों का चयन करता है जो समग्र प्रदर्शन के लिए बाद में सबसे बड़े सीमांत सुधार प्रदान करते हैं।
MBTL केवल बहुत होनहार कार्यों पर ध्यान केंद्रित करता है, इसलिए यह नाटकीय रूप से प्रशिक्षण प्रक्रिया की दक्षता में सुधार कर सकता है।
व्यय करना
जबकि शोधकर्ताओं ने नकली कार्यों पर इस तकनीक का परीक्षण किया, जो ट्रैफ़िक संकेतों को नियंत्रित करते हैं, वास्तविक समय की गति सलाहकारों का प्रबंधन करते हैं, और कई क्लासिक नियंत्रण कार्यों को चला रहे हैं, अन्य तरीकों की तुलना में पांच से 50 गुना अधिक कुशल थे।
इसका मतलब है कि वे बहुत कम डेटा पर प्रशिक्षण द्वारा एक ही समाधान तक पहुंच सकते हैं। उदाहरण के लिए, 50x दक्षता के प्रचार के साथ, MBTL एल्गोरिथ्म केवल दो कार्यों पर प्रशिक्षित कर सकता है और मानक विधि के समान कार्य को प्राप्त कर सकता है जो 100 कार्यों से डेटा का उपयोग करता है।
“दो प्रमुख दृष्टिकोणों के दृष्टिकोण से, इसका मतलब है कि अन्य 98 कार्यों से डेटा की आवश्यकता नहीं थी या यह कि सभी 100 कार्यों पर प्रशिक्षण एल्गोरिथ्म भ्रमित है, इसलिए प्रदर्शनी हमसे भी बदतर हो जाती है,” वू कहते हैं।
MBTL के साथ, अतिरिक्त प्रशिक्षण समय की एक छोटी राशि जोड़ने से बेहतर प्रदर्शन हो सकता है।
भविष्य में, शोधकर्ता एमबीटीएल एल्गोरिदम बनाने की योजना बनाते हैं जो उच्च-आयामी कार्य स्थानों जैसे अधिक जटिल समस्याओं का विस्तार कर सकते हैं। वे वास्तविक दुनिया की समस्याओं के लिए अपने दृष्टिकोण को लागू करने में भी रुचि रखते हैं, विशेष रूप से अगले वेतन पीढ़ी के गतिशीलता प्रणाली में।
अनुसंधान, नेशनल साइंस फाउंडेशन कैरियर अवार्ड के हिस्से के रूप में, क्वानजिंग एजुकेशनल फाउंडेशन पीएचडी छात्रवृत्ति कार्यक्रम और अमेज़ॅन रोबोटिक्स को पीएचडी फैलोशिप द्वारा वित्त पोषित किया जाता है।