आज के तेजी से तकनीकी परिदृश्य में, डेवलपर्स और संगठन अक्सर व्यावहारिक चुनौतियों की एक श्रृंखला में झुकते हैं। सबसे महत्वपूर्ण बाधाओं में से एक यह है कि विभिन्न डेटा प्रकार – पाठ, भाषण और दृष्टि – एक प्रणाली के भीतर एक कुशल प्रक्रिया। पारंपरिक दृष्टिकोणों को आम तौर पर प्रत्येक प्रतिरूपण के लिए अलग -अलग पाइपलाइनों की आवश्यकता होती है, जिससे जटिलता, उच्च विलंबता और आगे की गणना लागत में वृद्धि होती है। कई अनुप्रयोगों में – हेल्थकेयर डायग्नोस्टिक्स से लेकर वित्तीय विश्लेषण तक – ये सीमाएं प्रतिवादी और अनुकूली एआई समाधानों के विकास में बाधा डालती हैं। दक्षता के साथ ताकत को संतुलित करने वाले मॉडलों की आवश्यकता पहले से कहीं अधिक दबाव है। इस संबंध में, Micros .F के छोटे -लैंगुएज मॉडल डेल्स (SLM) पर नवीनतम कार्य एक कॉम्पैक्ट, बहुमुखी पैकेज में क्षमताओं को एकीकृत करने की कोशिश करके एक आशाजनक दृष्टिकोण प्रदान करता है।
Micros .ft AI ने हाल ही में Phi -4 -multimodal और Phi -4 -mini को पेश किया है, जो अपने SLM के परिवार में सबसे नवीन है। इन मॉडलों को मल्टीमॉडल प्रोसेसिंग स्ट्रीमिंग पर स्पष्ट ध्यान देने के साथ विकसित किया गया है। PHI-4- मल्टीमॉडल इंटीग्रेटेड आर्किटेक्चर के अंदर, एक साथ पाठ, भाषण और दृश्य इनपुट को संभालने के लिए डिज़ाइन किया गया है। इस एकीकृत दृष्टिकोण का मतलब है कि एक एकल मॉडल अब अलग -अलग, विशेष प्रणालियों की आवश्यकता के बिना विभिन्न डेटा प्रकारों के आधार पर प्रतिक्रिया की व्याख्या और उत्पादन कर सकता है।
इसके विपरीत, PHI-4-MINI को विशेष रूप से पाठ-आधारित कार्यों के लिए डिज़ाइन किया गया है। हालांकि अधिक कॉम्पैक्ट, उसे तर्क, कोडिंग और निर्देश के स्थगित करने के लिए एक इंजीनियर बनाया गया है। दोनों मॉडलों को Azure AI फाउंड्री और हॉल्ड फेशियल प्लेटफॉर्म द्वारा सुलभ बनाया गया है, यह सुनिश्चित करते हुए कि उद्योग रेंज के डेवलपर्स इन मॉडलों को अपने अनुप्रयोगों में प्रयोग और एकीकृत कर सकते हैं। यह संतुलित प्रकाशन उन्नत एआई को अधिक व्यावहारिक और सुलभ बनाने की दिशा में एक विचारशील कदम प्रस्तुत करता है।
तकनीकी विवरण और लाभ
तकनीकी स्तर पर, PHI-4-मल्टीमोडल एक 5.6 बिलियन-पैरामीटर मॉडल है जिसमें एक मिश्रण-ए विधि शामिल है जो एकल प्रस्तुति स्थान में भाषण, दृष्टि और पाठ के एकीकरण की अनुमति देता है। यह डिज़ाइन अलग -अलग प्रक्रिया पाइपलाइनों की आवश्यकता को समाप्त करके वास्तुकला को महत्वपूर्ण रूप से सुविधाजनक बनाता है। नतीजतन, मॉडल न केवल कम्प्यूटेशनल ओवरहेड को कम करता है, बल्कि कम देरी को भी प्राप्त करता है, जो विशेष रूप से वास्तविक समय के अनुप्रयोगों के लिए फायदेमंद हैं।
PHI-4-मिनी, इसके 8.8 बिलियन आयामों के साथ, Ga ense, Decoder-only ट्रांसफार्मर के रूप में बनाया गया है। इसमें एक समूहीकृत-क्वेरी ध्यान है और इसमें 200,000 टोकन की शब्दावली है, जो इसे 128,000 टोकन तक के अनुक्रमों को संभालने में सक्षम बनाता है। अपने छोटे आकार के बावजूद, PHI-4-MINI डीप उन कार्यों में महत्वपूर्ण रूप से प्रदर्शन करता है जिन्हें भाषा के तर्क और समझ की आवश्यकता होती है। इसकी एक स्टैंडआउट सुविधाओं में से एक फ़ंक्शन को कॉल करने की क्षमता है-इसे बाहरी उपकरण और एपीआई के साथ संवाद करने के लिए, इस प्रकार एक बड़े, अधिक संसाधन-गहन मॉडल की आवश्यकता के बिना अपनी व्यावहारिक उपयोगिता का विस्तार करना।
दोनों मॉडलों को डिवाइस निष्पादन के लिए इष्टतम इष्टतम किया गया है। यह इष्टतम ptimization वातावरण में या एक ही कंप्यूटिंग विचारों में अनुप्रयोगों के लिए विशेष रूप से महत्वपूर्ण है। मॉडल की कम गणना उन्हें एक लागत प्रभावी विकल्प बनाती है, यह सुनिश्चित करते हुए कि उन्नत एआई कार्यों को उन उपकरणों में भी समायोजित किया जा सकता है जिनके पास कोई व्यापक प्रसंस्करण क्षमता नहीं है।

प्रदर्शन अंतर्दृष्टि और बेंचमार्क डेटा
बेंचमार्क परिणाम एक स्पष्ट दृष्टिकोण प्रदान करते हैं कि ये मॉडल व्यावहारिक परिदृश्यों में कैसे करते हैं। उदाहरण के लिए, Phi -4 -multimode ने स्वचालित भाषण वैधता (ASR) कार्यों में 6.14% का एक प्रभावशाली शब्द त्रुटि दर (WER) दिखाया है। यह व्हिस्परवी 3 जैसे पिछले मॉडल की तुलना में एक मामूली सुधार है, जिसने 6.5%की सूचना दी है। ऐसे अपडेट विशेष रूप से उन अनुप्रयोगों में महत्वपूर्ण हैं जहां भाषण मान्यता में सटीकता महत्वपूर्ण है।
ASR के बगल में, शुल्क -4 -multimodal भी भाषण अनुवाद और सारांश जैसे कार्यों में मजबूत प्रदर्शन दिखाता है। दृश्य इनपुट को संसाधित करने की इसकी क्षमता दस्तावेज़ लॉजिक, चार्ट अंडरस्टैंडिंग और ical पैटिकल कैरेक्टर रिकग्निशन (OCR) जैसे कार्यों में महत्वपूर्ण है। कुछ बेंचमार्क में दृश्य डेटा पर कृत्रिम भाषण की व्याख्या से प्रलेखन का विश्लेषण करने के लिए एक सुसंगत, अधिक संसाधन-गहन मॉडल के साथ एक मॉडल प्रदर्शनी शामिल है।
इसी तरह, Phi -4 -mini का मूल्यांकन विभिन्न भाषाओं के एक बेंचमार्क पर किया जाता है, जहां यह अपने अधिक कॉम्पैक्ट डिजाइन के बावजूद खुद को रखता है। तर्क, जटिल गणितीय समस्याओं और कोडिंग कार्यों के लिए इसकी योग्यता पाठ-आधारित अनुप्रयोगों में इसकी बहुमुखी प्रतिभा को रेखांकित करती है। फ़ंक्शन-कॉलिंग लिंग तंत्र का समावेश इसकी संभावना को बढ़ाता है, जिससे मॉडल को बाहरी डेटा और टूल को समान रूप से आकर्षित करने में सक्षम बनाया जाता है। ये परिणाम मल्टीमॉडल और भाषा प्रसंस्करण क्षमताओं में मापा और विचारशील सुधार दिखाते हैं, जो इसके प्रभाव को एक स्पष्ट लाभ प्रदान करता है।
अंत
Micros .ft द्वारा Phi -4 -multimodal और शुल्क -4 -mini की शुरूआत AI के क्षेत्र में एक महत्वपूर्ण विकास है। व्यापक, संसाधन-नए आर्किटेक्चर पर भरोसा करने के बजाय, ये मॉडल दक्षता और प्रदर्शन के बीच एक शुद्ध संतुलन प्रदान करते हैं। एक एकल, सुसंगत संरचना में कई तरीकों को एकीकृत करके, PHI-4-मल्टीमॉडल मल्टीमॉडल प्रसंस्करण में अंतर्निहित जटिलता की सुविधा देता है। इस बीच, PHI-4-MINI पाठ-गहन कार्यों के लिए एक मजबूत समझौता प्रदान करता है, यह साबित करता है कि छोटे मॉडल वास्तव में महत्वपूर्ण क्षमताएं प्रदान कर सकते हैं।
जाँच करना गले के चेहरे पर तकनीकी विवरण और मॉडल। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए

Aswin AK MaviyechPost में एक परामर्श इंटर्न है। उन्हें खड़गपुर में भारतीय प्रौद्योगिकी में दोहरी डिग्री मिल रही है। यह डेटा अभिव्यक्तियों और पंखों और मशीन लर्निंग के बारे में उत्साही है, एक मजबूत शैक्षणिक पृष्ठभूमि और वास्तविक जीवन क्रॉस-डॉमन चुनौतियों को हल करने में अनुभव लाता है।
🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)