आर्टिफिशियल इंटेलिजेंस ने प्राकृतिक भाषा प्रक्रिया में जाना जारी रखा है लेकिन फिर भी स्थानिक तर्क कार्यों में चुनौतियों का सामना करता है। विजुअल-स्पेक्टैकुलर लॉजिक रोबोटिक्स, ऑटोनॉमस नेविगेशन और इंटरैक्टिव समस्या को हल करने वाले अनुप्रयोगों के लिए मौलिक है। एआई सिस्टम को इन डोमेन में काम करने और क्रमिक निर्णय लेने के लिए संरचित वातावरण की प्रभावी ढंग से व्याख्या करनी चाहिए। जबकि पारंपरिक सड़क-कथा वाले एल्गोरिदम, जैसे कि गहराई बंदाई-प्रथम खोज और एक*, निवारक समाधान प्रदान करते हैं, वे विभिन्न स्थानिक कार्यों में अच्छी तरह से सामान्य नहीं करते हैं। दीप ओना शिक्षा और सुदृढीकरण शिक्षा में संभावित समाधान प्रदान करता है, लेकिन मौजूदा तरीके वास्तविक दुनिया के अनुप्रयोगों में दक्षता और अनुकूलनशीलता के साथ संघर्ष करते हैं।
AI खगोलीय तर्क में एक बड़ी चुनौती दृश्य जानकारी के आधार पर कार्यों की व्याख्या और कार्यान्वयन करने के लिए भाषा मॉडल को सक्षम करना है। बड़ी भाषा मॉडल (LLMS) विशेषज्ञ रूप से पाठ्य डेटा को संसाधित करते हैं, लेकिन आंतरिक स्थानिक समझ का अभाव है। उनकी टोकन-आधारित सीखने की संरचना एक अनुक्रमिक निर्णय लेने के लिए स्वाभाविक रूप से जटिल दृश्य वातावरण को मैप नहीं करती है। इस तरह के मॉडल को समझने और संरचनात्मक रिक्त स्थान को समझने के लिए प्रशिक्षण जैसे कि भूलभुलैया के लिए उपन्यास के तरीकों की आवश्यकता होती है, जिसमें टोकन दृश्य डेटा युक्त होते हैं। इन अभ्यावेदन को एकीकृत करने के लिए प्रभावी संरचना के बिना, मॉडल आंदोलन के अनुक्रमों की भविष्यवाणी नहीं कर सकते हैं या बदलते वातावरण में अपने तर्क के अनुकूल हैं।
एआई में स्थानिक कार्यों को हल करने के पिछले तरीकों में अवलोकन किए गए प्रशिक्षण दृष्टिकोण शामिल हैं जो लेबल वाले डेटासेट को नियोजित करते हैं। सुदृढीकरण सीखने की तकनीकों की भी खोज की गई है, विशेष रूप से रोबोटिक्स और स्वायत्त प्रणालियों में। हालांकि, इन दृष्टिकोणों को व्यापक गणना संसाधनों की आवश्यकता होती है और अक्सर मैन्युअल रूप से ठीक किए गए डेटासेट पर निर्भर करते हैं। थोड़ी सफलता के बावजूद, ये तरीके विभिन्न समस्या सेटिंग्स में सामान्यीकरण करने और मल्टी-स्टेप लॉजिक के साथ संघर्ष करने में विफल रहते हैं। एआई-प्रोपेल्ड स्थानिक तर्क के लिए एक व्यवस्थित प्रशिक्षण दृष्टिकोण की आवश्यकता होती है जो अत्यधिक मानवीय हस्तक्षेप के बिना अनुकूलनशीलता और निर्णयों में सुधार करता है।
मेनलो रिसर्च के शोधकर्ताओं ने प्रस्तुत किया खेलLLMS के तर्क की क्षमता को बढ़ाने के लिए दो-चरण प्रशिक्षण संरचना। फ्रेमवर्क समूह सापेक्ष नीति ऑप्टिमाइज़ेशन (जीआरपीओ) भूलभुलैया नेविगेशन में निर्णय को बेहतर बनाने के लिए फाइन-ट्यूनिंग (एसएफटी) को एकीकृत करता है। टोकन किए गए भूलभुलैया अभ्यावेदन के ठीक किए गए डेटासेट के लिए मॉडल को उजागर करके प्रशिक्षण शुरू होता है, जिससे यह चरण-दर-चरण आंदोलन अनुक्रमों को सीखने की अनुमति देता है। एक बार जब मॉडल बुनियादी योग्यता दिखाता है, तो जीआरपीओ अनुक्रमिक निर्णय को बेहतर बनाने और संरचित तर्क को बढ़ावा देने के लिए लागू होता है। सुदृढीकरण सीखने की रणनीति को टाल देकर, यह दृष्टिकोण भाषा प्रक्रिया और स्थानिक समस्या के समाधान के बीच अंतर को पूरा करता है।

प्रशिक्षण संरचना में दो अलग -अलग चरण होते हैं। प्रारंभ में, मनाया गया फाइन-ट्यूनिंग (एसएफटी) का उपयोग भूलभुलैया के टोकन दृश्य प्रस्तुतियों के लिए एलएलएम को पेश करने के लिए किया जाता है। मॉडल डेटासेट में एन्कोड किए गए स्थानिक संबंधों को संसाधित करके आंदोलन आदेशों की भविष्यवाणी करना सीखता है। प्रत्येक मार्ग को एक ग्रिड के रूप में डिज़ाइन किया गया है जहां अद्वितीय टोकन दीवारों, पथों, प्रारंभ बिंदुओं और लक्ष्य का प्रतिनिधित्व करते हैं। यह संरचित इनपुट मॉडल को बाधा और आंदोलन के संभावित तरीकों को समझने की अनुमति देता है। दूसरा चरण जीआरपीओ के लिए पेश किया गया है, एक सुदृढीकरण शिक्षा दृष्टिकोण जो कुशल और सटीक शोधकर्ता रणनीति को पुरस्कृत करके निर्णय को बेहतर बनाता है। मानक सुदृढीकरण शिक्षा के विपरीत, समूह समूह-आधारित इष्टतम ptimization तकनीकों को लाभान्वित करते हैं और मानव प्रतिक्रिया पर निर्भरता को समाप्त करते हैं। मॉडल दोहराए जाने वाले शोधन से गुजरता है, धीरे-धीरे कम से कम त्रुटियों और आत्म-सुधार व्यवहार के साथ मेस को हल करने की अपनी क्षमता में सुधार करता है।
प्रयोगात्मक परिणामों ने सड़क समाधान की सटीकता में एक स्पष्ट सुधार दिखाया। बेसलाइन मॉडल, जिसमें संरचित प्रशिक्षण का अभाव था, किसी भी मीज़ का सफलतापूर्वक पता लगाने में विफल रहा। जब SFT का उपयोग करके प्रशिक्षित किया जाता है, तो मॉडल डेल ने 86%की सटीकता प्राप्त की, जो कि स्थानिक अभ्यावेदन को प्रभावी ढंग से प्रक्रिया करने की क्षमता दिखाती है। 93%तक सटीकता बढ़ाना, स्थानिक तर्क को बढ़ाने में सुदृढीकरण शिक्षा की प्रभावशीलता को उजागर करना, जीआरपीओ का उपयोग करके सुदृढीकरण शिक्षा की प्रभावशीलता को बढ़ाता है। मॉडल में श्रृंखला-सोच और अनुकूली पथ सुधार के उद्भव का तर्क व्यवहार प्रदर्शित किया गया था। 1600 प्रशिक्षण चरणों के दौरान, जीआरपीओ ने क्रमशः एक जटिल वातावरण में नेविगेट करने वाले मॉडल की क्षमता को उत्तेजित किया, अमान्य आंदोलन अनुक्रम काफी कम हो गया और समस्याओं को हल करने की दक्षता। मेजबान की प्रस्तुति 100 अद्वितीय भूलभुलैया चुनौतियों, ठोस बेंचमार्किंग के साथ एक संरचनात्मक मूल्यांकन संरचना प्रदान करती है। डेटासेट में सरल, मध्यम और कठोर -संबंधी परतें होती हैं, यह सुनिश्चित करते हुए कि विभिन्न जटिलताओं के स्तरों में प्रभाव के लाभों का मूल्यांकन किया गया है।

इस शोध के निष्कर्ष एआई-संचालित स्थानिक तर्क को बेहतर बनाने के लिए सुदृढीकरण ऑप्टिमाइज़ेशन से शिक्षा को जोड़ने की शक्ति को दर्शाते हैं। टोकन दृश्य अभ्यावेदन और अनुक्रमिक शोधन का उपयोग एलएलएम को गतिशील रूप से उनके निर्णय की रणनीति के अनुकूल बनाने में सक्षम बनाता है। यह अध्ययन एआई प्रशिक्षण प्रक्रियाओं में संरचित इनपुट स्वरूपण के महत्व को भी मजबूत करता है, क्योंकि विशेष तर्क मार्करों के बिना प्रशिक्षित मॉडल के मॉडल महत्वपूर्ण कम प्रदर्शन दिखाते हैं। जबकि संरचना में महत्वपूर्ण सुधार दिखाया गया है, अधिक शुद्ध करने वाले कार्य और प्रशिक्षण पाइपलाइनों से जटिल समस्याओं को हल करने के दृश्यों में अधिक वृद्धि हो सकती है। यह शोध संरचित प्रशिक्षण विधियों को एकीकृत करके वास्तविक दुनिया के अनुप्रयोगों के लिए उन्नत स्थानिक तर्क क्षमताओं से लैस करने के लिए एक आशाजनक तरीका प्रस्तुत करता है।
जाँच करना कागज़। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एक एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए

निखिल मार्केटकपोस्ट में एक इंटर्न कंसल्टेंट है। वह खड़गपुर में भारतीय संगठन की प्रौद्योगिकी में सामग्री में दोहरी डिग्री प्राप्त कर रहा है। निखिल एआई/एमएल उत्साही है जो हमेशा बायोमेट्रियल और बायोमेडिकल विगल्स जैसे क्षेत्रों में आवेदन पर शोध करता है। भौतिक अभिव्यक्ति में एक मजबूत पृष्ठभूमि के साथ, वह नई प्रगति और योगदान की संभावना की तलाश कर रहा है।
🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)