अलीबाबा के शोधकर्ताओं ने आर 1-ओएम की शुरुआत की: ओमनी-मल्टीमॉडल बड़े बड़े बड़े पुरस्कार (आरएलवीआर) के मॉडल दाल के साथ सुदृढीकरण शिक्षा का आवेदन

वीडियो से भावनात्मक मान्यता में कई नूनसन चुनौतियां शामिल हैं। मॉडल जो विशेष रूप से एक दृश्य या ऑडियो डीओ सिग्नल पर निर्भर करते हैं, अक्सर इन विधियों के बीच जटिल परस्पर क्रिया में छूट जाते हैं, जिससे भावनात्मक सामग्री की गलत व्याख्या होती है। मुख्य समस्याओं में से एक मज़बूती से दृश्य संकेतों को जोड़ रहा है – जैसे कि चेहरे की अभिव्यक्ति या शरीर की भाषा – टोन या उद्देश्य जैसे श्रव्य संकेतों के साथ। कई मौजूदा प्रणालियों में भी अपने निर्णय की प्रक्रिया को समझाने की क्षमता का अभाव है, जिससे यह समझना मुश्किल हो जाता है कि किसी विशेष भावना को कैसे पाया जाता है। इसके अलावा, ये मॉडल कभी -कभी तर्क का उत्पादन कर सकते हैं जो सीधे इनपुट डेटा को प्रतिबिंबित नहीं करता है, या यह महत्वपूर्ण ऑडियो DIO विवरण का पूरी तरह से उपयोग करने में विफल हो सकता है। जब मल्टीमॉडल जोर मान्यता के लिए एक मजबूत और व्याख्यात्मक दृष्टिकोण की आवश्यकता पर जोर देता है, तो ये मुद्दे अधिक स्पष्ट हो जाते हैं जब मॉडल डेलो अज्ञात विचारों का सामना करते हैं।

अलीबाबा शोधकर्ताओं द्वारा R1-OM प्रस्तुत करना

अपने हाल के काम में, अलीबाबा के शोधकर्ताओं ने आर 1-ओएम का परिचय दिया, जो कि ओमनी-मल्टीमॉडल बड़े भाषा मॉडल के एक सत्यापित पुरस्कार (आरएलवीआर) के साथ सुदृढीकरण शिक्षा का अनुप्रयोग है, जो आत्मा की वैधता के अनुरूप है। R1-AMNI स्थापित Humano फ्रेमवर्क पर निर्मित है और वीडियो और ऑडियो DIO डेटा को संभालने के लिए मॉडल को समाप्त करने के लिए RLVR को लागू करता है। विधि ठंड की शुरुआत के चरण से शुरू होती है, जहां मॉडल को समझाया गया मल्टीमॉडल इमोशन लॉजिक (एमर) और मैन्युअल रूप से एनॉटेड डेटासेट से एक संयुक्त डेटासेट का उपयोग करके पूर्व-शिक्षित किया जाता है। यह प्रारंभिक प्रशिक्षण RLVR को शुद्ध करने से पहले मॉडल को बुनियादी तर्क कौशल सीखने में मदद करता है। प्रशिक्षण प्रक्रिया में नियम-आधारित पुरस्कार विधि को एकीकृत करके, R1-AMNI न केवल सटीक भावना की भविष्यवाणी के लिए है, बल्कि दृश्य और श्रवण जानकारी का वर्णन करने वाले स्पष्ट और व्याख्या की स्पष्टता उत्पन्न करने के लिए भी है।

तकनीकी अंतर्दृष्टि और दृष्टिकोणों के लाभ

R1-OM डिजाइन के साथ सुदृढीकरण शिक्षा का समेकन सत्यापित रिवार्ड्स (RLVR) और समूह-संबंधित नीति ऑप्टिमाइज़ेशन (GRPO) की उत्पत्ति है। RLVR एक इनाम के काम के साथ व्यक्तिपरक मानव प्रतिक्रिया की आवश्यकता को बदल देता है जो उद्देश्य मानदंड के खिलाफ मॉडल के उत्पादन का मूल्यांकन करता है। इनाम प्रणाली सीधी है: यदि मॉडल की भावना भूमि की सच्चाई से मेल खाती है, तो उसे 1 का इनाम प्राप्त होता है; अन्यथा, यह 0 प्राप्त करता है। इसके अलावा, एक प्रारूप पुरस्कार यह सुनिश्चित करता है कि आउटपुट एक स्पष्ट संरचना का पालन करता है, जहां तर्क प्रक्रिया को स्पष्ट रूप से निर्दिष्ट टीएस जीएस द्वारा अंतिम भविष्यवाणी से अलग किया जाता है।

जीआरपीओ उम्मीदवार उत्तरों के समूहों की तुलना करके प्रशिक्षण प्रक्रिया में सुधार करता है, जिससे मॉडल को अधिक सुसंगत और व्याख्यात्मक तर्क के साथ लोगों की पहचान करने और उनके पक्ष में मदद मिलती है। यह विधि भविष्यवाणियों की समग्र गुणवत्ता में सुधार करते समय तर्क की घटना को कम करने में मदद करती है या गलत तरीके से। साथ में, ये तकनीकी रणनीतियाँ उन्नत तर्क, मल्टीमॉडल इनपुट की बेहतर समझ और बेहतर प्रभावों में योगदान करती हैं, खासकर जब मॉडल को पहले नहीं देखा जाता है।

प्रायोगिक परिणाम और मुख्य अवलोकन

यह प्रयोगों का एक व्यापक सेट प्रस्तुत करता है जो आर 1-एएमएस की तुलना कई बेसलाइन मॉडल से करता है, जिसमें मूल ह्यूमनमनी -0.5 बी पर निर्देशित फाइन-ट्यूनिंग (एसएफटी) के मॉडल शामिल हैं और अंडे और माफ-डिफेट डेटासेट पर ई-ट्यूनड फाइन-ट्यूनिंग (एसएफटीएस)। DFU डेटासेट पर, R1-OM को 65.83% का एक अज्ञात औसत रिकॉल (UAR) और 56.27% का औसत रिकॉल प्राप्त होता है। ये स्कोर अन्य दृष्टिकोणों के साथ प्राप्त लोगों की तुलना में काफी अधिक हैं। इसी तरह, MAFW डेटासेट पर, R1-AMNI एक बेहतर ऑपरेशन दिखाता है, जो विभिन्न श्रेणियों में भावनाओं को सटीक रूप से वर्गीकृत करने की अपनी क्षमता को उजागर करता है।

R1-OMNI की अतिरिक्त ताकत विस्तृत और सुसंगत तर्क प्रक्रियाएं बनाने की क्षमता है। अध्ययन में प्रदान किए गए विज़ुअलाइज़ेशन उदाहरण बताते हैं कि, अन्य मॉडलों की तुलना में, R1-AMNI स्पष्टीकरण देता है जो बेहतर दर्शाता है कि दृश्य और ऑडियो DIO सिग्नल पूर्वानुमान में कैसे योगदान करते हैं। मॉडल भी मजबूत सामान्यीकरण क्षमताओं को दिखाता है जब राव डेस डेटासेट पर मूल्यांकन किया जाता है – एक संग्रह जिसमें पेशेवर अभिनेताओं और मानक भाषण की सुविधा है। यह इंगित करता है कि मॉडल प्रभाव के निरंतर स्तर को बनाए रखते हुए विभिन्न प्रकार के इनपुट डेटा को स्वीकार करने में सक्षम है।

तैयार विचार और भविष्य के निर्देश

सारांश में, R1-OM की मल्टीमॉडल भावना मान्यता की चुनौती के लिए एक विचारशील दृष्टिकोण का प्रतिनिधित्व करती है। सत्यापित पुरस्कारों के साथ सुदृढीकरण शिक्षा का लाभ देकर, मॉडल को न केवल अधिक सटीकता के साथ भावनाओं की भविष्यवाणी करने के लिए शुद्ध किया जाता है, बल्कि इसके निर्णयों के पीछे तर्क को स्पष्ट करने के लिए भी शुद्ध किया जाता है। यह दृष्टिकोण क्षेत्र में कुछ लंबे समय तक चलने वाले मुद्दों पर विचार करने में मदद करता है, जैसे कि मल्टीमॉडल डेटा का एकीकरण और मॉडल आउटपुट की व्याख्या।

इसकी प्रगति के बावजूद, R1-OM अभी भी चुनौतियों का सामना करता है। उदाहरण के लिए, उपशीर्षक विश्वास में सुधार करना और असमर्थित तर्क के पैटर्न को कम करना आगे के शोध के लिए क्षेत्र बना हुआ है। भविष्य के अनुसंधान के तहत मॉडल को बढ़ाने के लिए, ऑडियो डीओ संकेतों के एकीकरण में सुधार करने के लिए, और मानव भावनात्मक समझ की सूक्ष्मता की नकल करने के लिए मॉडल की तर्क क्षमताओं को तेज करने पर ध्यान केंद्रित कर सकता है।

कुल मिलाकर, R1-AMNI एक आशाजनक संरचना प्रदान करता है जो व्याख्या की आवश्यकता के साथ तकनीकी कठोरता को संतुलित करता है, अधिक पारदर्शी और प्रभावी मल्टीमॉडल भावनात्मक प्रणालियों के विकास के लिए मूल्यवान अंतर्दृष्टि का योगदान देता है।


जाँच करना पेपर और GitHB पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

MEET PALLANT: व्यवहार दिशानिर्देशों और रनटाइम मॉनिटरिंग का उपयोग करके, अपने AI ग्राहक सेवा एजेंटों पर आवश्यक नियंत्रण और सटीकता प्रदान करने के लिए AI फ्रेमवर्क डेवलपर्स को प्रदान करने के लिए एक LLM-FIRST वार्तालाप किया गया है। 🔧 🔧 🎛 इसका उपयोग करना आसान है। और पायथन और टाइपस्क्रिप्ट में मूल ग्राहक एसडीके का उपयोग करके संचालित है।


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

पार्लेंट: LLMS (B ED) के साथ एक विश्वसनीय AI ग्राहक का सामना करना

Scroll to Top