आर्किटेक्चर से परे जीपीटी: एलएलएम परिनियोजन के लिए Google का प्रसार दृष्टिकोण क्यों कर सकता है


उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें


पिछले महीने, Google डीपमाइंड ने नए एआई टूल और नवाचारों की एक विस्तृत सूट के साथ मिथुन के प्रसार का अनावरण किया। यह प्रायोगिक अनुसंधान मॉडल पाठ का उत्पादन करने के लिए एक प्रसार आधारित दृष्टिकोण का उपयोग करता है। परंपरागत रूप से, जीपीटी। और एक बड़ी भाषा मॉडल डेल्स (एलएलएम), जैसे कि मिथुन, अयस्क टोरिगेशन पर निर्भर करता है, एक चरण-दर-चरण दृष्टिकोण जहां प्रत्येक शब्द पिछले एक के आधार पर निर्मित होता है। डिफ्यूजन लैंग्वेज मॉडल (डीएलएम), जिसे डिफ्यूजन-आधारित बड़े-आधारित बड़े-आधारित मॉडल डेल्स (डीएलएम) के रूप में भी जाना जाता है, यादृच्छिक शोर से शुरू होने वाली विधि का लाभ उठाते हैं और धीरे-धीरे इसे एक संगत आउटपुट में सुधारते हैं। यह दृष्टिकोण नाटकीय रूप से वेतन उत्पादन की गति को बढ़ाता है और निरंतरता और स्थिरता में सुधार कर सकता है।

मिथुन प्रसार वर्तमान में एक प्रयोगात्मक डेमो के रूप में उपलब्ध है; एक्सेस प्राप्त करने के लिए यहां एक वेटलिस्ट के लिए साइन अप करें

(संपादक का ध्यान दें: हमें एक राजा को एक स्प्रेड-आधारित भाषा मॉडल जैसे पैटर्न को स्थानांतरित करके अनपैक करना चाहिए और इसे उत्पादन में चलाने के लिए क्या करना चाहिए-उस पर। वीबी ट्रांसफॉर्म, सैन फ्रांसिस्को में 24-25 जूनGoogle डीपमाइंड, लिंक्डइन और अन्य एंटरप्राइज एआई नेताओं के साथ।)

पदोन्नति बनाम। अयस्क टोरीगैरेशन समझ

रोकथाम और अयस्क टॉरेंट्रसन मूल रूप से अलग -अलग दृष्टिकोण हैं। एक पूर्वसूचक के साथ एक समय में टोकन, अयस्क धारदार दृष्टिकोण क्रमशः पाठ का उत्पादन करता है। जबकि यह विधि मजबूत स्थिरता और संदर्भ ट्रैकिंग की गारंटी देती है, यह गणना की जा सकती है और धीमी गति से, विशेष रूप से लंबे समय की सामग्री के लिए।

इसके विपरीत, विपरीत, एक यादृच्छिक ध्वनि के साथ शुरू होता है, जिसे धीरे -धीरे एक सुसंगत आउटपुट में नामित किया जाता है। जब भाषा पर लागू होता है, तो प्रौद्योगिकी के कई लाभ होते हैं। पाठ के ब्लॉकों को समानांतर संसाधित किया जा सकता है, संभवतः बहुत दर दर पर पूरे खंडों या वाक्यों का उत्पादन किया जा सकता है।

मिथुन प्रसार रिपोर्ट के अनुसार, प्रति सेकंड 1,000-2,000 टोकन उत्पादन कर सकते हैं। इसके विपरीत, मिथुन 2.5 फ्लैश की औसत आउटपुट गति 272.4 टोकन प्रति सेकंड है। इसके अलावा, वेतन सामान्यीकरण में गलतियों को ठीक किया जा सकता है, सटीकता में सुधार किया जा सकता है और शुद्धि प्रक्रिया के दौरान अवसाद की संख्या को कम किया जा सकता है। ठीक दाने वाली सटीकता और टोकन-स्तरीय नियंत्रण के संदर्भ में ट्रेड-एस एफएस हो सकता है; हालांकि, गति में वृद्धि कई अनुप्रयोगों के लिए एक स्पोर्ट्स-चेंजर होगी।

फैल -आधारित पाठ पीढ़ी कैसे काम करती है?

प्रशिक्षण के दौरान, डीएलएम कई चरणों पर शोर के साथ धीरे -धीरे काम करता है, जब तक कि मूल वाक्य की पूरी तरह से पहचान नहीं हो जाती। तब मॉडल को इस प्रक्रिया के विपरीत करने के लिए प्रशिक्षित किया जाता है, चरण -बी -स्टेप, मूल वाक्य को अधिक से अधिक शोर संस्करणों के साथ फिर से बनाया गया है। बार -बार शुद्धि के माध्यम से, यह प्रशिक्षण डेटा में तर्कसंगत वाक्यों के पूर्ण वितरण को मॉडल करना सीखता है।

जब मिथुन प्रसार के विनिर्देशों को अभी तक प्रकट नहीं किया गया है, तो प्रसार मॉडल के लिए विशिष्ट प्रशिक्षण विधि में ये मुख्य चरण शामिल हैं:

आगे प्रसार: प्रशिक्षण डेटासेट में प्रत्येक नमूने के साथ, शोर को कई चक्रों (अक्सर 500 से 1000) में जोड़ा जाता है जब तक कि यह यादृच्छिक रूप से अस्पष्ट न हो जाए।

विपरीत प्रसार: मॉडल शोर प्रक्रिया के प्रत्येक चरण का विरोध करना सीखता है, एक चरण में एक चरण में एक चरण को “इनकार” करने के लिए सीखता है, अंततः मूल गठन को बहाल करता है।

यह प्रक्रिया विभिन्न नमूनों और शोर के स्तर के साथ लाखों बार दोहराती है, जो मॉडल को एक विश्वसनीय उदास कार्य सीखने में सक्षम बनाती है।

एक बार प्रशिक्षित होने के बाद, मॉडल पूरी तरह से नए वाक्यों का उत्पादन करने में सक्षम है। डीएलएम को आमतौर पर वांछित परिणामों के लिए भुगतान पीढ़ी को निर्देशित करने के लिए एक स्थिति या इनपुट जैसे प्रॉम्प्ट, क्लास लेबल या एम्बेडिंग की आवश्यकता होती है। इस स्थिति को परिभाषित प्रक्रिया के प्रत्येक चरण में इंजेक्ट किया जाता है, जो ध्वनि के प्रारंभिक बूँद को एक संरचित और संगत पाठ में आकार देता है।

प्रसार -आधारित मॉडल के फायदे और नुकसान

वेंचरबिट, Google Dipmind के रिसर्च विजय पर एक लीड। मन्निक और मिथुन डिफ्यूजन प्रोजेक्ट, ब्रेंडन ओ डोनोग के साथ एक साक्षात्कार में, जबकि अयस्क ने टॉरेंटेशन की तुलना में स्प्रेड-आधारित प्रौद्योगिकियों के कुछ लाभों पर विस्तार किया। ओ डोनॉग के अनुसार, प्रसार तकनीकों के मुख्य लाभ इस प्रकार हैं:

  • कम विलंबता: रोकथाम मॉडल अयस्क टोरेंटिव मॉडल की तुलना में कम समय में टोकन का उत्पादन कर सकते हैं।
  • अनुकूली गणना: स्प्रेड मॉडल कार्य की कठिनाई के आधार पर, अलग -अलग दरों पर टोकन के क्रम में बदल जाएगा। यह मॉडल को कम संसाधनों (और कम विलंबता) और सरल कार्यों वाले लोगों पर अधिक कठिन उपभोग करने की अनुमति देता है।
  • गैर-अद्वितीय तर्क: डिनोइज़र में द्विपक्षीय ध्यान के कारण, टोकन भविष्य के टोकन में एक ही वेतन पीढ़ी के ब्लॉक में भाग ले सकते हैं। यह गैर-कीज़ियल लॉजिक की अनुमति देता है और ब्लॉक के अंदर वैश्विक संपादन को मॉडल के लिए अधिक सुसंगत पाठ बनाने की अनुमति देता है।
  • Itarative शोधन / आत्म-सुधार: इनकार की प्रक्रिया में नमूने होते हैं, जो अयस्क टोरेंटिव मॉडल जैसी त्रुटियों का प्रतिनिधित्व कर सकते हैं। हालांकि, अयस्क टोरेंटिव मॉडल के विपरीत, टोकन एक डिनोइज़र में वापस आ जाते हैं, जो तब त्रुटि को ठीक करने का मौका देता है।

O डोनोगू ने मुख्य नुकसान भी नोट किया: “सेवा की लागत और थोड़ी अधिक समय-समय पर पहले-टोकन (TTFT), क्योंकि अयस्क धारदार मॉडल तुरंत पहले टोकन का उत्पादन करेंगे। प्रसार के लिए, टोकन तैयार होने पर पहला टोकन दिखाई दे सकता है।”

बेंचमार

Google का कहना है कि मिथुन प्रसार प्रदर्शन मिथुन 2.0 फ्लैश-लाइट के बराबर है।

अद्भुतरूपसंवहनीमिथुन 2.0 फ्लैश-लाइट
LifeWearbanch (V6)कोड30.9%28.5%
बड़ी संख्या मेंकोड45.4%45.8%
एलबीपीपी (वी 2)कोड56.8%56.0%
SWE बेंच सत्यापित*कोड22.9%28.5%
इंसानकोड89.6%90.2%
एमबीपीपीकोड76.0%75.8%
जीपीक्यूएज्ञान विज्ञान40.4%56.5%
AIM 2025अंक शास्त्र23.3%20.0%
बड़ी बेंच अतिरिक्त कठिनतर्क15.0%21.0%
वैश्विक MMLU (प्रकाश)बहुमूल्य69.1%79.0%

* गैर-एजेंट मूल्यांकन (केवल एक मोड़ का संपादन), अधिकतम शीघ्र लंबाई 32k।

दो मॉडलों की तुलना कई बेंचमार्क का उपयोग करके की गई थी, यह इस बात पर निर्भर करता है कि मॉडल ने कितनी बार स्कोर के साथ पहले प्रयास में सही उत्तर दिया था। मिथुन ने कोडिंग और गणित परीक्षणों में अच्छा प्रदर्शन किया, जबकि मिथुन 2.0 फ्लैश-लाइट लॉजिक, दुश्मन। जेनिक ग्नोलेज ज्ञान और बहुभाषी क्षमताओं पर बढ़त थी।

यह सोचने का कोई कारण नहीं है कि किसके मिथुन प्रसार विकसित होता है, इसका प्रदर्शन अधिक स्थापित मॉडल पर कब्जा नहीं करेगा। ओ डोनोग के अनुसार, दो प्रौद्योगिकियों के बीच की दूरी अनिवार्य रूप से बेंचमार्क डिस्प्ले के संदर्भ में बंद है, कम से कम छोटे आकार में हमने स्केल किया है। वास्तव में, कुछ डोमेन में फैलने के लिए थोड़ा प्रभाव लाभ हो सकता है, उदाहरण के लिए, कोडिंग और तर्क। “

मिथुन फैल गया

वेंचरबैट को प्रायोगिक दानव दिया गया था। सफलता दी गई। मिथुन प्रसार को अपनी गति के माध्यम से डालते समय, पहली चीज जो हमने देखी, वह थी गति। Zylophone और Planet Tech TOE जैसे इंटरैक्टिव HTML एप्लिकेशन बनाते हुए, Google द्वारा प्रदान किए गए प्रस्तावित संकेतों को चलाना, प्रत्येक अनुरोध तीन सेकंड से नीचे पूरा हो गया है, जिसकी गति 600 से 1,300 टोकन प्रति सेकंड है।

वास्तविक दुनिया के एप्लिकेशन के साथ अपने प्रभाव का परीक्षण करने के लिए, हमने मिथुन प्रसार को निम्नलिखित प्रॉम्प्ट के साथ एक वीडियो चैट इंटरफ़ेस बनाने के लिए कहा:

Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

दो सेकंड से भी कम समय में, मिथुन प्रेसर ने वीडियो पूर्वावलोकन और ऑडियो डीओ मीटर के साथ एक कामकाजी इंटरफ़ेस बनाया।

हालांकि यह एक जटिल कार्यान्वयन नहीं था, यह एमवीपी की शुरुआत हो सकती है जिसे थोड़ी और जांच के साथ पूरा किया जा सकता है। ध्यान दें कि मिथुन 2.5 फ्लैश ने एक कामकाजी इंटरफ़ेस भी बनाया, हालांकि थोड़ी धीमी गति से (लगभग सात सेकंड)।

मिथुन में एक “इंस्टेंट एडिट” भी है, एक मोड के साथ जहां पाठ या कोड को पेस्ट किया जा सकता है और कम से कम प्रॉम्प्टिंग के साथ वास्तविक समय में संपादित किया जा सकता है। इंस्टेंट एडिट कई प्रकार के टेक्स्ट एडिटिंग के लिए प्रभावी है, जिसमें व्याकरण में सुधार करना, विभिन्न पाठक व्यक्तियों को लक्षित करने के लिए पाठ को अपडेट करना, या एसईओ कीवर्ड को जोड़ना शामिल है। यह प्रतिबिंब कोड जैसे कार्यों के लिए भी उपयोगी है, एप्लिकेशन में नई सुविधाओं को जोड़ना या मौजूदा कोडबेस को अलग -अलग भाषा में परिवर्तित करना।

एंटरप्राइज़ डीएलएम के लिए उपयोग के मामले

यह कहना सुरक्षित है कि किसी भी एप्लिकेशन को त्वरित प्रतिक्रिया समय की आवश्यकता होती है, डीएलएम तकनीक से लाभान्वित होता है। इनमें वास्तविक समय और कम-इलेक्ट्रेंसी एप्लिकेशन शामिल हैं, जैसे कि बातचीत एआई और चैटबॉट्स, लाइव ट्रांसक्रिप्शन और ट्रांसलेशन, या आईडीई ऑटेट ओएम कम्प्लीट और कोडिंग असिस्टेंट।

डोनॉग के अनुसार, “इनलाइन संपादन, उदाहरण के लिए, पाठ का एक टुकड़ा लेते हुए और जगह में कुछ बदलाव करने के लिए, प्रसार मॉडल को उस तरह से लागू किया जाता है जिस तरह से वे अयस्क टोरेंटिव मॉडल नहीं हैं।” DLMS भी कारण है, गणित और कोडिंग समस्याओं का लाभ, क्योंकि “द्विपक्षीय ध्यान द्वारा प्रदान किए गए गैर-सरलता तर्क।”

DLMS अभी भी उनके बचपन में है; हालांकि, तकनीकी भाषा मॉडल कैसे बनाए जाते हैं, संभावित रूप से बदल सकते हैं। वे केवल अयस्क टोरेंटिव मॉडल की तुलना में अधिक दर दर पर पाठ उत्पन्न करते हैं, लेकिन उनकी क्षमता वापस जाने और त्रुटियों को ठीक करने की उनकी क्षमता का मतलब है, आखिरकार, वे अधिक सटीकता के साथ परिणाम भी उत्पन्न कर सकते हैं।

मिथुन प्रसार डीएलएम के बढ़ते पारिस्थितिकी तंत्र में प्रवेश करता है, पारा के दो महत्वपूर्ण उदाहरणों के साथ, इंसेप्शन लैब्स द्वारा विकसित, और जीएसएआई के ओपन सोर्स मॉडल। साथ में, ये मॉडल प्रसार-आधारित भाषा वेतन सामान्य के पीछे व्यापक गति को दर्शाते हैं और पारंपरिक अयस्क टोरेंटिव आर्किटेक्ट्स के लिए एक स्केलेबल, समानांतर विकल्प प्रदान करते हैं।

Scroll to Top