ASGLANG: CPU शेड्यूलिंग, कैश-जागृत लोड बैलेंस और रैपिड स्ट्रक्चर्ड आउटपुट जनरेशन द्वारा एक ओपन-सर्विसेज इंजन एलएलएम परिनियोजन

आज के तकनीकी परिदृश्य में एलएलएम को तैनात करते समय संगठनों को महत्वपूर्ण चुनौतियों का सामना करना पड़ता है। प्राथमिक मुद्दों में उच्च मात्रा में डेटा को संसाधित करने के लिए आवश्यक भारी गणना की मांग का प्रबंधन करना, कम देरी और सीपीयू-गहन कार्यों को प्राप्त करना, जैसे कि शेड्यूल और मेमोरी आवंटन और जीपीयू-गहन गणनाओं को सर्वोत्तम संतुलन सुनिश्चित करने के लिए। समान इनपुट के लगातार प्रसंस्करण से कई प्रणालियों में अशुद्धियों के अधिक संयोजन का कारण बनता है, जिससे अनावश्यक गणना होती है जो समग्र प्रदर्शन को धीमा करती है। इसके अलावा, वास्तविक समय में JSON या XML जैसे संरचित आउटपुट का उत्पादन अधिक देरी का परिचय देता है, जिससे अनुप्रयोगों के लिए एक त्वरित, विश्वसनीय, लागत प्रभावी प्रदर्शन देना मुश्किल हो जाता है।

सिर एक खुला स्रोत पूर्वानुमान इंजन इन चुनौतियों को पार करने के लिए ASGLANG टीम द्वारा डिज़ाइन किया गया है। यह पूर्वानुमान के दौरान सीपीयू और जीपीयू संसाधनों से बाहर निकलता है, कई प्रतिस्पर्धी समाधानों की तुलना में काफी उच्च -राइज थ्रूपुट प्राप्त करता है। इसका डिज़ाइन एक अभिनव दृष्टिकोण का उपयोग करता है जो निरर्थक गणनाओं को कम करता है और समग्र दक्षता को बढ़ाता है, जिससे निकायों को एलएलएम तैनाती से जुड़ी जटिलताओं को बेहतर ढंग से प्रबंधित करने में सक्षम बनाता है।

राडार स्लैंग का केंद्र, जो कई अनुरोधों पर साझा किए गए शीघ्र उपसर्ग को फिर से उपयोग करता है। यह दृष्टिकोण प्रभावी रूप से एक ही इनपुट अनुक्रमों की दोहरावदार प्रक्रिया को कम करता है, थ्रूपुट में सुधार करता है। यह तकनीक संचार इंटरफेस या रिकवरी-यूजी गैंटेड पीढ़ी के अनुप्रयोगों में फायदेमंद है, जहां समान संकेत अक्सर संसाधित होते हैं। निरर्थक गणना को हटाकर, सिस्टम यह सुनिश्चित करता है कि प्रक्रिया का समय और अधिक प्रतिक्रिया अनुप्रयोगों में योगदान देता है, संसाधनों का अधिक प्रभावी रूप से उपयोग किया जाता है।

Esglang की एक और महत्वपूर्ण विशेषता इसका शून्य-हेड बैच शेड्यूलर है। पिछला संदर्भ प्रणाली अक्सर बैच शेड्यूलिंग, मेमोरी आवंटन और शीघ्र प्रीप्रोसेसिंग जैसे कार्यों के कारण महत्वपूर्ण सीपीयू ओवरहेड से पीड़ित होती है। कई मामलों में, यह ऑपरेशन GPU द्वारा किया जाता है। एक निष्क्रिय अवधि के लिए, जो बदले में समग्र प्रदर्शन में बाधा डालता है। ESGLANG वर्तमान GPU गणनाओं के साथ CPU को ओवरलैप करके इस बाधा को संबोधित करता है। शेड्यूलर GPU को लगातार एक बैच चलाकर और अगले बैच के लिए सभी आवश्यक मेटाडेटा तैयार करके व्यस्त रखता है। प्रोफाइलिंग ने दिखाया है कि यह डिज़ाइन निष्क्रिय समय को कम करता है और औसत दर्जे की गति में सुधार प्राप्त करता है, विशेष रूप से कॉन्फ़िगरेशन में जिसमें छोटे मॉडल और व्यापक तनाव समानांतर शामिल हैं।

Esglang में एक नकद-जागृत लोड बैलेंसर भी शामिल है जो राउंड-रॉबिन शेड्यूलिंग जैसे पारंपरिक लोड बैलेंसिंग विधियों के साथ प्रस्थान करता है। पारंपरिक तकनीकें अक्सर कुंजी-मूल्य (केवी) कैश स्थिति को अनदेखा करती हैं, जिससे अक्षम संसाधन उपयोग होता है। इसके विपरीत, स्लैंग का लोड बैलेंस विभिन्न श्रमिकों की नकद हिट दर की भविष्यवाणी करता है और आगामी अनुरोधों को सबसे अधिक संभावित नकद हिट के लिए निर्देशित करता है। यह लक्षित रूटिंग थ्रूपुट को बढ़ाता है और कैश के उपयोग को बढ़ाता है। तंत्र रेडिक्स ट्री पर निर्भर करता है जो प्रत्येक कार्यकर्ता पर वर्तमान कैश स्थिति को दर्शाता है, और यह इस आलसी को न्यूनतम ओवरहेड लगाने के लिए अपडेट करता है। उच्च सम्मिश्रण के लिए जंग के लिए लागू लोड बैलेंसर, विशेष रूप से एक वितरित, बहु-नोड वातावरण के लिए उपयुक्त हैं।

इन विशेषताओं के अलावा, स्लैंग डेटा समानांतर ध्यान का समर्थन करता है, विशेष रूप से DIPECIC मॉडल के लिए एक रणनीति। जबकि कई आधुनिक मॉडल समानांतर तनाव का उपयोग करते हैं, जिससे कई जीपीयू में स्केलिंग करते समय कैश स्टोरेज की डुप्लिकेट हो सकती है, स्लैंग मल्टी-हेड फोकस का उपयोग करके मॉडल के लिए एक अलग विधि का उपयोग करते हैं। इस दृष्टिकोण में, व्यक्तिगत डेटा समानांतर कार्यकर्ता स्वतंत्र रूप से विभिन्न बीईएस शतरंज को संभालते हैं, जैसे कि प्रीफिल, डिकोड या निष्क्रिय। बाद की परतों से गुजरने से पहले श्रमिकों में ध्यान से पूछा गया डेटा एकत्र किया जाता है, जैसे कि मिक्स-एफ-विशेषज्ञ परत, और बाद में फिर से वितरित किया गया।

Esglang एक संरचित आउटपुट कुशल वेतन पीढ़ी में भी सबसे अच्छा है। कई अनुमान प्रणाली JSON जैसे प्रारूपों के वास्तविक समय के डिकोडिंग के साथ संघर्ष करती हैं, जो कई अनुप्रयोगों में एक महत्वपूर्ण आवश्यकता हो सकती है। यह Asglang Exgramer नामक एक विशेष व्याकरण बैकएंड को एकीकृत करके इसे संबोधित करता है। इस एकीकरण ने डिकोडिंग प्रक्रिया को ट्रिम किया, जिससे सिस्टम अन्य खुले स्रोत विकल्पों की तुलना में दस गुना तेजी से संरचित आउटपुट का उत्पादन कर सके। यह क्षमता विशेष रूप से मूल्यवान है जब डाउनस्ट्रीम प्रसंस्करण या इंटरैक्टिव अनुप्रयोगों के लिए आवश्यक मशीन-पठनीय डेटा का उत्पादन किया जाता है।

कई हाई-प्रोफाइल कंपनियों ने स्वलंग के व्यावहारिक लाभों को मान्यता दी है। उदाहरण के लिए, Bydrees चैनल इस इंजन के माध्यम से अपने आंतरिक NLP पाइपलाइनों के एक बड़े हिस्से को संसाधित करते हैं, डेटा के पेटबाइट्स दैनिक। इसी तरह, XAI ने इष्टतम ptimise शेड्यूलिंग और प्रभावी नकद प्रबंधन का लाभ प्रदान करके महत्वपूर्ण लागतों को बचाया है, जिसके परिणामस्वरूप सेवा लागतों में महत्वपूर्ण कमी आई है। ये वास्तविक दुनिया अनुप्रयोग पैमाने पर कुशलता से संचालित करने, प्रभाव और लाभ में सुधार करने के लिए स्लैंग की क्षमता को उजागर करते हैं।

Esglang Apache 2.0 ओपन-सर्विस लाइसेंस के तहत प्रकाशित किया गया है और यह शैक्षणिक अनुसंधान और वाणिज्यिक कार्यक्रमों के लिए सुलभ है। OpenAI मानकों और पायथन एपीआई के प्रावधान के साथ इसकी प्रासंगिकता डेवलपर्स को मौजूदा वर्कफ़्लोज़ में इसे एकीकृत करने की अनुमति देती है। इंजन कई मॉडलों का समर्थन करता है, जिसमें लोकप्रिय लोग जैसे लामा, मिस्टल, जेम्मा, क्वैन, डीपस्क, शुल्क और ग्रेनाइट शामिल हैं। यह NVIDIA और AMD GPU सहित विभिन्न हार्डवेयर प्लेटफार्मों पर काम करने के लिए डिज़ाइन किया गया है, और FP8 और INT4 जैसी उन्नत मात्रा का ठहराव तकनीकों को एकीकृत करता है। भविष्य के संवर्द्धन में FP6 वजन और FP8 सक्रियण मात्रा का ठहराव, फास्ट स्टार्टअप टाइम्स और क्रॉस-क्लैड लोड बैलेंस शामिल होंगे।

स्लैंग पर शोध से कुछ प्रमुख तकनीक में शामिल हैं:

  1. CPU और GPU। कार्यों के बीच संतुलन बड़े -लंगुएज मॉडल डेलो को तैनात करने की महत्वपूर्ण चुनौतियों का सामना करता है।
  2. रेडिक्सेटेशन निरर्थक गणना को कम करता है, संचार और वसूली के विचारों में थ्रूपुट में सुधार करता है।
  3. निरंतर प्रसंस्करण और निष्क्रिय समय को कम करने के लिए शून्य-ओवरहेड बैच शेड्यूलर GPU ऑपरेशन के साथ CPU शेड्यूलिंग ओवरलैप्स।
  4. कैश-विगोरस लोड किए गए बैलेंसर प्रभावी रूप से कैश हिट दर और मार्ग अनुरोधों की भविष्यवाणी करते हैं, समग्र प्रदर्शन और कैश के उपयोग में तेजी लाते हैं।
  5. डेटा समानांतर ध्यान मेमोरी ओवरहेड को कम करता है और मल्टी-हेड अव्यक्त ध्यान मॉडल के लिए डिकोडिंग थ्रूपुट को बढ़ाता है।
  6. XGRAMMAR का एकीकरण JSON जैसे प्रारूपों के लिए प्रसंस्करण गति में काफी सुधार करके संरचित आउटपुट के तेजी से भुगतान के लिए अनुमति देता है।
  7. एक बड़े -स्केल उत्पादन वातावरण में अपने गोद लेने से असग्लांग के व्यावहारिक लाभ हैं, जो महत्वपूर्ण लागत बचत और प्रदर्शन में सुधार में योगदान देता है।

जाँच करना GitHub रेपो, प्रलेखन और तकनीकी विवरण। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 75 k+ ml सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

Scroll to Top