QTAI ने मोशीविस पर प्रकाश डाला: पहला ओपन सोर्स रियल-टाइम स्पीच मॉडल जो छवियों के बारे में बात कर सकता है

यद्यपि आर्टिफिशियल इंटेलिजेंस ने हाल के वर्षों में महत्वपूर्ण प्रगति की है, लेकिन दृश्य सामग्री के साथ वास्तविक समय के भाषण बातचीत को एकीकृत करना एक जटिल चुनौती है। पारंपरिक सिस्टम अक्सर आवाज पर निर्भर करते हैं गतिविधि गतिविधि, भाषण मान्यता, पाठ्य संवाद और पाठ-से-भाषण संश्लेषण के लिए विभिन्न घटकों है। यह विभाजित दृष्टिकोण एक देरी और मानव संचार के शोर का प्रतिनिधित्व कर सकता है, जैसे कि भावनाओं या भाषण की आवाज़, पकड़ नहीं सकता है। ये सीमाएं नेत्रहीन बिगड़ा हुआ व्यक्तियों की सहायता के लिए डिज़ाइन किए गए अनुप्रयोगों में स्पष्ट हैं, जहां दृश्य दृश्यों के समय पर और सटीक विवरण की आवश्यकता होती है।

इन चुनौतियों को संबोधित करते हुए, कट्टी ने मोशीविस को पेश किया है, जो एक ओपन-सेयर्स विज़न स्पीच मॉडल (वीएसएम) है जो छवियों के बारे में प्राकृतिक, वास्तविक समय के भाषण इंटरैक्शन को सक्षम करता है। मोशी के साथ अपने पिछले काम के मद्देनजर, भाषण-पाठ फाउंडेशन, जिसे वास्तविक समय के संवाद के लिए डिज़ाइन किया गया है, मॉडल-मोशिस दृश्य इनपुट को समायोजित करने के लिए इन क्षमताओं का विस्तार करता है। यह विकास उपयोगकर्ताओं को दृश्य सामग्री के बारे में एक तरल बातचीत में व्यस्त रहने की अनुमति देता है, एआई विकास में महत्वपूर्ण प्रगति को चिह्नित करता है।

तकनीकी रूप से, मोशीवी मोशी का भाषण टोकन धारा मौजूदा दृश्य एनकोडर से दृश्य जानकारी से संबंधित हल्के क्रॉस-अटैक मॉड्यूल को एकीकृत करके मोशी को बढ़ाती है। यह डिज़ाइन यह सुनिश्चित करता है कि मोशी की मूल संचार क्षमताएं दृश्य इनपुट को संसाधित करने और चर्चा करने की क्षमता पेश करते समय बरकरार रहें। क्रॉस-अटैक मॉड्यूल के भीतर गेटिंग तंत्र मॉडल को दक्षता और प्रतिक्रिया बनाए रखने में सक्षम बनाता है, दृश्य डेटा के साथ चुनिंदा रूप से। गौरतलब है कि मोसविस ग्राहक-ग्रेड उपकरणों पर प्रति अनुमान लगभग 7 मिलीसेकंड विलंबता कदम जोड़ता है, जैसे कि एम 4 प्रो चिप के साथ मैक मिनी, जिसके परिणामस्वरूप कुल 55 मिलीसेकंड प्रति अनुमानित चरणों में होता है। यह प्रदर्शनी वास्तविक समय की विलंबता के लिए 80-मील की सीमा से नीचे बनी हुई है, जिससे चिकनी और प्राकृतिक बातचीत सुनिश्चित होती है।

व्यावहारिक अनुप्रयोगों में, Mosevis प्राकृतिक भाषण के माध्यम से दृश्य दृश्यों के विस्तृत विवरण प्रदान करने की अपनी क्षमता दिखाता है। उदाहरण के लिए, जब मोशिसविस को हरी धातु रचनाओं की छवि और एक हल्के भूरे रंग के बाहरी छवि के साथ प्रस्तुत किया जाता है, तो मोशिस स्पष्ट करता है:

“मैं एक मेष शीर्ष के साथ दो हरी धातु रचनाएं देख रहा हूं, और वे एक बड़े पेड़ से घिरे हुए हैं। पृष्ठभूमि में, आप एक हल्के भूरे रंग की बाहरी और काली छत की इमारत देख सकते हैं, जो पत्थर से बना लगता है।”

यह क्षमता अनुप्रयोगों के नए तरीके खोलती है जैसे कि दृश्य के लिए ऑडियो डियो विवरण प्रदान करना, परिग्रहण को बढ़ाना और दृश्य जानकारी के साथ अधिक प्राकृतिक बातचीत को सक्षम करना। मोशीवीस को एक खुले स्रोत परियोजना के रूप में मुक्त करके, कती समुदाय और डेवलपर्स को इस तकनीक का पता लगाने और विस्तार करने के लिए आमंत्रित करता है, दृष्टि-भाषण मॉडल में नवाचार को बढ़ावा देता है। मॉडल वेट, फोरकास्ट कोड और विजुअल स्पीच बेंचमार्क की उपलब्धता मोशी के कार्यक्रमों को बेहतर बनाने और विविधता लाने के लिए सहयोगी प्रयासों द्वारा अधिक समर्थित है।

अंत में, मोसविस एआई में महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो वास्तविक समय के भाषण बातचीत के साथ दृश्य समझ को विलय करता है। इसका खुला स्रोत प्रकृति व्यापक रूप से अपनाने और विकास को बढ़ावा देती है, जो प्रौद्योगिकी के साथ अधिक सुलभ और प्राकृतिक बातचीत का मार्ग प्रशस्त करती है। जैसे -जैसे एआई बढ़ता रहता है, मोसविस जैसे नवाचार हमें मल्टीमॉडल समझ के सहज एकीकरण के करीब लाते हैं, विभिन्न डोमेन में उपयोगकर्ता के अनुभवों को बढ़ाते हैं।


जाँच करना तकनीकी विवरण और इसे यहां आज़माएं। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

Scroll to Top