Google का अल्फव ओल्व एल: एआई एजेंट जिसने Google की गिनती की 0.7% की गणना की – और इसे कैसे कॉपी करें


नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें


Google के नए अल्फावोलव से पता चलता है कि जब AI एजेंट लैब डेमो से उत्पादन कार्य तक स्नातक करता है, तो क्या होता है, और आपको इसे चलाने के लिए सबसे प्रतिभाशाली प्रौद्योगिकी कंपनियां मिली हैं।

Google के डीपमाइंड द्वारा निर्मित, सिस्टम स्वचालित रूप से महत्वपूर्ण कोड को फिर से लिखता है और पहले से ही Google के भीतर खुद को भुगतान करता है। उन्होंने मैट्रिक्स गुणन (कई मशीन लर्निंग वर्कलोड का शरीर) में 56 -वर्ष के रिकॉर्ड को फैलाया। और कंपनी के वैश्विक डेटा केंद्रों ने गणना क्षमता का 0.7% हिस्सा लिया।

यह एक हेडलाइन करतब की आपत्ति है, लेकिन एंटरप्राइज़ टेक लीडर्स के लिए ईआर बंदो सबक है क्यों अल्फावोलवे उन्हें खींचता है। यह अपने आर्किटेक्चर-कंट्रोलर, फास्ट-ड्राफ्ट मॉडल, डीप-आइडियोलॉजिकल मॉडल, स्वचालित मूल्यांकनकर्ताओं और संस्करण मेमोरी-ग्रेड-ग्रेड प्लंबिंग की व्याख्या करता है जो स्वायत्त एजेंटों को एक पैमाने पर तैनात करने के लिए सुरक्षित बनाता है।

Google की AI तकनीक तर्क से कोई नहीं है। तो चाल कैसे सीखना है, या इसे सीधे कैसे उपयोग करना है, इसकी तलाश कर रहा है। Google का कहना है कि प्रारंभिक कार्यक्रम का मामला कार्यक्रम शैक्षिक भागीदारों में आ रहा है और “व्यापक उपलब्धता” का आविष्कार किया जा रहा है, लेकिन विवरण पतले हैं। तब तक, अल्फावोलवे सबसे अच्छा-अभ्यास टेम्पलेट है: यदि आप उच्च-मूल्य वाले कार्यभार को छूने वाले एजेंट चाहते हैं, तो आपको तुलनात्मक ऑर्केस्ट्रेशन, परीक्षण और गार्ड की आवश्यकता होगी।

बस विचार करें डेटा सेंटर जीतता है। Google 0.7%पर एक मूल्य टैग नहीं लगाएगा, लेकिन इसका वार्षिक Capex अरबों अरबों डॉलर संचालित करता है। एक मोटा अनुमान भी सैकड़ों करोड़ों वार्षिक में बचत करता है –पर्याप्त के लिए, जैसे कि हमारे हालिया पॉडकास्ट पर स्वतंत्र डेवलपर सैम विटेन, मिथुन अल्ट्रा के एक संस्करण के लिए $ 191 मिलियन का अनुमान है, मिथुन मॉडल डेलो को प्रशिक्षित करने के लिए भुगतान करने के लिए।

वेंचरबैट इस सप्ताह के शुरू में अल्फावोलवे न्यूज को रिपोर्ट करने वाले पहले व्यक्ति थे। अब हम ईआर बांदा जाएंगे: सिस्टम कैसे काम करता है, जहां इंजीनियरिंग बार वास्तव में बैठता है और कंक्रीट स्टेप्स एंटरप्राइज कुछ तुलनीय बना सकते हैं (या खरीद सकते हैं)।

1। सरल स्क्रिप्ट से परे: “एजेंट ऑपरेटिंग पावरिंग सिस्टम” का उदय

एजेंट को एक ऑपरेटिंग पैल्टिंग सिस्टम के रूप में वर्णित किया गया है जो उस पर अल्फावोलव चलाता है – एक वितरित, एसिंक्रोनस पाइपलाइन स्केल को पैमाने पर निरंतर सुधार के लिए डिज़ाइन किया गया है। इसके मुख्य टुकड़े एक नियंत्रक हैं, बड़े भाषा के मॉडल की एक जोड़ी (चौड़ाई के लिए मिथुन फ्लैश; गहराई के लिए मिथुन प्रो), एक संस्करण कार्यक्रम-मेमोरी डेटाबेस का एक बेड़ा और मूल्यांकनकर्ता श्रमिकों का एक बेड़ा, जो कम विलंबता के बजाय उच्च थ्रूपुट के लिए सिर्फ धुन करता है।

अल्फावोलवे एजेंट संरचना का एक उच्च-स्तरीय अवलोकन। स्रोत: अल्फावोल्व पेपर।

यह वास्तुकला कल्पनाशील रूप से नया नहीं है, लेकिन निष्पादन है। “यह सिर्फ एक अविश्वसनीय अच्छा निष्पादन है,” विटिविन कहते हैं।

Alpheivolve एक के रूप में पेपर ऑरचेस्टर का वर्णन करता है “विकासवादी एल्गोरिथ्म जो एक क्रमिक कार्यक्रम विकसित करता है जो स्वचालित मूल्यांकन मैट्रिक्स पर स्कोर में सुधार करता है” (पेज 3); संक्षेप में, एक “एलएलएम की स्वायत्त पाइपलाइन, जिसका कार्य कोड में सीधे परिवर्तन द्वारा एल्गोरिथ्म को बेहतर बनाना है” (पी। 1)।

त्रुटि के लिए टेकवे: यदि आपकी एजेंट योजनाओं में उच्च-मूल्य वाले कार्यों पर अस्वास्थ्यकर रन शामिल हैं, तो एक ही बुनियादी ढांचे के लिए योजनाएं: जॉब कतार, संस्करण मेमोरी स्टोर, सेवा-मैश ट्रेसिंग और एजेंट द्वारा बनाए गए किसी भी कोड के लिए सुरक्षित सैंडबॉक्सिंग।

2। मूल्यांकनकर्ता इंजन: स्वचालित, उद्देश्य प्रतिक्रिया के साथ ड्राइविंग प्रगति

अल्फाओवोव का मुख्य तत्व इसकी कठोर मूल्यांकन संरचना है। एलएलएम की एक जोड़ी द्वारा निर्धारित प्रत्येक दोहराव को उपयोगकर्ता द्वारा प्रदान किए गए “मूल्यांकन” फ़ंक्शन के आधार पर स्वीकार या अस्वीकार कर दिया जाता है। यह मूल्यांकन प्रणाली प्रत्येक प्रस्तावित कोड चेंज-सिम्प्लर, ऑटोमैटिक टेस्ट (डेवलपर्स जैसे यूनिट्स टेस्ट जैसे पहले से ही) पर अल्ट्राफास्ट यूनिट-टेस्ट चेक के साथ शुरू होती है, जो अभी भी स्निपेट को संकलित करती है और एक भारी बेंचमार्क और एलएलएम पर एक मुट्ठी भर सूक्ष्म-इनपुट पैदा करती है। यह समानांतर चलता है, इसलिए खोज तेज और सुरक्षित रहती है।

संक्षेप में: मॉडल एक फिक्स का संकेत देते हैं, फिर उन सभी परीक्षणों के खिलाफ परीक्षण करते हैं जिन पर आप भरोसा करते हैं। Alfavolve मल्टी-ग्रेडुअल इष्टतम ptimization का भी समर्थन करता है (लेटनेस भी izing ptimizes का समर्थन करता है और एक साथ सटीकता), विकसित कार्यक्रम जो कई मेट्रिक्स को एक साथ हिट करते हैं। आदिम रूप से, कई लक्ष्यों को समायोजित करने से अधिक विविध समाधानों को बढ़ावा देकर एक लक्ष्य मीट्रिक में सुधार हो सकता है।

त्रुटि के लिए टेकवे: उत्पाद एजेंटों को डेट्रैनेस्टिक स्कोरर की आवश्यकता होती है। चाहे वह यूनिट टेस्ट हो, एक पूर्ण सिम्युलेटर या कैनरी ट्रैफ़िक विश्लेषण। स्वचालित मूल्यांकनकर्ता आपके सुरक्षा जाल और आपके विकास इंजन दोनों हैं। इससे पहले कि आप एक एजेंसी परियोजना शुरू करें, पूछें: “क्या हमारे पास एक मीट्रिक है जो एक एजेंट खुद को स्कोर कर सकता है?”

3। स्मार्ट मॉडल का उपयोग, दोहराव कोड शोधन

अल्फावोलवे दो-मॉडल लय के साथ प्रत्येक कोडिंग समस्या को हल करता है। सबसे पहले, मिथुन तेजी से ड्राफ्ट फायर करता है, सिस्टम का पता लगाने के लिए विचारों का एक विस्तृत सेट देता है। तब मिथुन प्रो का अध्ययन करता है जो आगे की गहराई में मसौदा तैयार करता है और मजबूत उम्मीदवारों का एक छोटा सा सेट देता है। दोनों मॉडलों को खिलाना एक हल्का “प्रॉम्प्ट बिल्डर” है, जो प्रत्येक मॉडल को देखने वाली एक सहायक स्क्रिप्ट को इकट्ठा करता है। यह तीन प्रकार के संदर्भों को जोड़ती है: प्रोजेक्ट डेटाबेस में सहेजे गए पिछले कोड प्रयास, किसी भी गार्ड या नियम जो इंजीनियरिंग टीम ने लिखा था और प्रासंगिक बाहरी सामग्री जैसे कि शोध पत्र या डेवलपर नोट्स। उस समृद्ध पृष्ठभूमि के साथ, मिथुन फ्लैश व्यापक रूप से घूमता है, जबकि मिथुन के समर्थक पर शून्य।

कई एजेंटों डेमो के विपरीत, जो एक समय में एक फ़ंक्शन को चिल्लाता है, अल्फावोलवे पूरे रिपॉजिटरी को संपादित करता है। यह प्रत्येक परिवर्तन को एक मानक DEFL ब्लॉक C के रूप में वर्णित करता है – एक ही पैच प्रारूप इंजीनियर Gittub को धक्का देते हैं – ताकि यह ट्रैक खोए बिना दर्जनों फ़ाइलों को छू सके। बाद में, स्वचालित परीक्षण यह निर्धारित करते हैं कि क्या पैच स्टिक हैं। दोहराए जाने वाले चक्र पर, एजेंट की सफलता और विफलता की स्मृति बढ़ जाती है, इसलिए यह बेहतर पैच का प्रस्ताव करता है और मृत अंत पर कम गणना खर्च करता है।

गिरफ्तार के लिए टेकवे: सस्ते, तेज मॉडल मस्तिष्क को संभालने देते हैं, फिर सबसे अच्छे विचारों को बेहतर बनाने के लिए एक अधिक सक्षम मॉडल पर कॉल झील देते हैं। प्रत्येक परीक्षण को एक पता लगाए गए इतिहास में सहेजें, क्योंकि यह स्मृति के पीछे काम करता है और टीमों में पुन: उपयोग किया जा सकता है। तदनुसार, विक्रेता मेमोरी जैसी चीजों के आसपास डेवलपर्स को नए उपकरण प्रदान करने के लिए चल रहे हैं। ओपिनमेनरी एमसीपीएस जैसे उत्पाद, जो एक पोर्टेबल मेमोरी स्टोर प्रदान करते हैं, और ला लेमिंडेक्स में नई लंबी और छोटी -छोटी मेमोरी एपीआई एक गिंग गिंग के रूप में इस तरह के निरंतर संदर्भ में प्लग करना लगभग आसान है।

Openai का कोडेक्स -1S सॉफ्टवेयर करतब -कटा हुआ -समता सहमति, जो आज प्रकाशित हुई है, उसी पैटर्न को रेखांकित करती है। यह एक सुरक्षित सैंडबॉक्स के भीतर समानांतर कार्यों को समाप्त करता है, यूनिट परीक्षण चलाता है और पुल-सचेत ड्राफ्ट-प्रभावशाली रूप से अल्फीव ओल्व वाइड-एंड-इवैल्यूएशन लूप के सीओडी-विशिष्ट गूंज को प्रतिध्वनित करता है।

अल्फावोव की मूर्त जीत – 0.7%डेटा सेंटर क्षमता, मिथुन प्रशिक्षण कर्नेल रनटाइम 23%, फ्लैश का लक्ष्य 32%, और टीपीयू डिजाइन को आसान बनाने के लिए – एक सुविधा साझा करें: वे एयरटाइट मैट्रिक्स के साथ डोमेन को लक्षित करते हैं।

डेटा सेंटर शेड्यूलिंग के लिए, अल्फावोल ने एक हर्स्टिक विकसित किया, जिसका मूल्यांकन Google बिहैसिक कार्यभार के आधार पर Google के डेटा केंद्रों के सिम्युलेटर का उपयोग करके किया गया था। कर्नल ऑप्टिम पाइमाइजेशन के लिए, उद्देश्य वास्तविक कर्नेल इनपुट आकृतियों के डेटासेट में टीपीयू त्वरक पर वास्तविक रनटाइम को कम करना था।

त्रुटि के लिए टेकवे: अपनी एजेंसी एआई टूर शुरू करते समय, वर्कफ़्लो को पहले देखें जहां “बेहतर” एक मात्रात्मक संख्या है जो आपके सिस्टम की गणना कर सकती है – यह एक विलंबता, मूल्य, त्रुटि दर या थ्रूपुट है। यह ध्यान स्वचालित पहचान और डी-रिस्क परिनियोजन की अनुमति देता है क्योंकि एजेंट का आउटपुट (अक्सर मानव-पठनीय कोड के मामले में, जैसे कि अल्फाव ओल्व वन में) को मौजूदा समीक्षा और मान्यता पाइपलाइनों में एकीकृत किया जा सकता है।

यह स्पष्टता एजेंट को आत्म-सुधार और अस्पष्ट मूल्य प्रदर्शित करने की अनुमति देती है।

5। नींव रखी: उद्यम एजेंटों की सफलता के लिए आवश्यक आवश्यक शर्तें

जबकि अल्फियोवोव की उपलब्धियां प्रेरणादायक हैं, Google का पेपर इसके दायरे और आवश्यकताओं के बारे में भी स्पष्ट है।

प्राथमिक सीमा एक स्वचालित मूल्यांकनकर्ता की आवश्यकता है; मैनुअल प्रयोगों या “वैट-एलएबी” प्रतिक्रिया की आवश्यकता वर्तमान में इस विशिष्ट दृष्टिकोण के लिए अंतरिक्ष से बाहर है। सिस्टम महत्वपूर्ण गणनाओं का उपभोग कर सकता है- “100 कंप्यूट-घंटे में किसी भी नए समाधान का मूल्यांकन करने के लिए” (अल्फावोल्व पेपर, पी। 8), समानांतर और सावधान क्षमता योजना।

जटिल एजेंटों में महत्वपूर्ण बजट आवंटित करने से पहले, तकनीकी नेताओं को महत्वपूर्ण प्रश्न पूछना चाहिए:

  • मशीन-ग्रेडिबल समस्या? क्या हमारे पास एक स्पष्ट, स्वचालित मीट्रिक है जिसके खिलाफ एक एजेंट प्रदर्शन कर सकता है?
  • गिनती क्षमता? क्या हम पे जनरल के संभावित काउंट-रिच इंटीरियर लूप को वहन कर सकते हैं, विशेष रूप से विकास और प्रशिक्षण चरण के दौरान, आकलन और शुद्धिकरण कर सकते हैं?
  • कोडबेस और मेमोरी तत्परता? क्या आपका CodeBase दोहराया गया है, संभावित रूप से डेफ-आधारित, जो परिवर्तनों के लिए डिज़ाइन किया गया है? और क्या आप अपने विकासवादी इतिहास से एजेंट को सीखने के लिए महत्वपूर्ण मेमोरी सिस्टम को लागू कर सकते हैं?

त्रुटि के लिए टेकवे: मजबूत एजेंट पहचान और प्रबंधन सेस प्रबंधन पर ध्यान केंद्रित किया गया, जैसे कि FRONTAG, AUT 0 और अन्य, कई उद्यम प्रणालियों के साथ सुरक्षित रूप से संपर्क करने वाले एजेंटों को तैनात करने के लिए आवश्यक फुटपाथ संरचनाओं की ओर भी इशारा करते हैं।

एजेंट भविष्य एक इंजीनियर है, न कि केवल कहा जाता है

एंटरप्राइज टीमों के लिए अल्फियोवो का संदेश कई बार है। सबसे पहले, एजेंटों के आसपास आपका ऑपरेटिंग पैलेटिंग सिस्टम अब मॉडल इंटेलिजेंस से अधिक महत्वपूर्ण है। Google का ब्लूप्रिंट तीन कॉलम दिखाता है जिन्हें नहीं छोड़ा जा सकता है:

  • डिटिमैनिस्टिक मूल्यांकनकर्ता जो हर बार एजेंट को बदलते हैं, वे स्पष्ट स्कोर देते हैं।
  • लंबे समय से चलने वाले सी संयम जो तेजी से “ड्राफ्ट” मॉडल को मिथुन फ्लैश जैसे धीमी, अधिक कठोर मॉडल के साथ उलझा सकते हैं, भले ही यह एक Google स्टैक या लैंगचेन की तरह एक लैंगग्राफ हो।
  • निरंतर स्मृति ताकि हर पुनरावृत्ति शुरुआत से संबंधित होने के बजाय अंतिम पर बनाती है।

पहले से ही लॉगिंग, टेस्ट हार्नेस और संस्करण कोड रिपॉजिटरी रोमांच में हैं जो उनके विचारों के करीब हैं। अगला कदम एक स्व-सेवा मूल्यांकन लूप में तार करना है ताकि कई एजेंट-जनित समाधान प्रतिस्पर्धा कर सकें, और केवल उच्च स्कोरिंग पैच जहाज।

सिस्को के अनुराग धंगारा, एंटरप्राइज कनेक्टिविटी और सहयोग के वीपी। और जीएम ने इस सप्ताह एक साक्षात्कार में कहा: “यह बहुत वास्तविक है,” उन्होंने उत्पादन, गोदाम, ग्राहक संपर्क केंद्रों में एआई एजेंटों का उपयोग करते हुए रोमांच के बारे में बात की। “यह भविष्य में कुछ नहीं है। यह आज वहां हो रहा है।” उन्होंने चेतावनी दी कि जैसे-जैसे ये एजेंट अधिक व्यापक हो जाते हैं, “काम-जैसा” काम “, मौजूदा प्रणालियों पर तनाव बहुत बड़ा होगा:” नेटवर्क ट्रैफ़िक छत से गुजरने वाला है, “धिनरा ने कहा। आपका नेटवर्क, बजट और प्रतिस्पर्धी बढ़त हाइप साइकिल बसने से पहले तनाव का अनुभव कर सकती है। इस तिमाही में शामिल, एक मीट्रिक-आधारित उपयोग केस-स्काल क्या काम करता है।

डेवलपर सैम विटविन के साथ बनाया गया वीडियो पॉडकास्ट देखें, जहां हम प्रोडक्शन-ग्रेड एजेंटों पर डीप बैंड में जाते हैं, और कैसे अल्फिव ओल्व दिखा रहा है:

https://www.youtube.com/watch?v=G5N13JJaing

Scroll to Top