डेटा TAO: AI LLM डेटाब्रिक्स डेटा लेबल के बिना फाइन-ट्यूनिंग


नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें


एआई मॉडल केवल ऐसा करते हैं और साथ ही साथ ठीक -ठाक प्रशिक्षण या ट्यून करते थे।

लेबल डेटा उनके अधिकांश इतिहास के लिए मशीन लर्निंग (एमएल) और जेनेरिक एआई का एक मूलभूत तत्व रहा है। प्रशिक्षण के दौरान संदर्भ को समझने में एआई मॉडल की मदद करने के लिए लेबल किया गया डेटा जानकारी है।

एआई एप्लिकेशन को लागू करने के लिए एक एंटरप्राइज़ रेस के रूप में, हिडन बॉटलेंक अक्सर तकनीकी नहीं होते हैं-यह डोमेन-विशिष्ट डेटा एकत्र करने, क्यूरेटिंग और लेबलिंग का महीना है। इस “डेटा लेबलिंग कर” को तकनीकी नेताओं के बीच तैनाती में देरी करने या सामान्य मॉडल से उप -प्रभाव को स्वीकार करने के लिए चुनने के लिए मजबूर किया गया है।

डेटाब्रिक्स उस चुनौती पर एक सीधा लक्ष्य ले रहा है।

इस हफ्ते, कंपनी ने टेस्ट-टाइम एडेप्टिव ऑप्टिमाइज़ेशन (TAO) नामक एक नए दृष्टिकोण पर एक शोध का खुलासा किया। दृष्टिकोण के पीछे का मूल विचार एंटरप्राइज़-ग्रेड लार्ज-लैंग्वेज मॉडल (एलएलएम) ट्यूनिंग को केवल इनपुट डेटा का उपयोग करने में सक्षम करने के लिए है, जो कंपनियों के पास पहले से ही लेबल के पास नहीं हैं, जब हजारों लेबल उदाहरणों पर पारंपरिक फाइन-ट्यूनिंग की आवश्यकता होती है, तो परिणाम प्राप्त होते हैं। डेटाब्रिक्स डेटा एक लीकहाउस प्लेटफ़ॉर्म विक्रेता के रूप में शुरू हुआ और हाल के वर्षों में एआई पर अधिक ध्यान केंद्रित किया। डेटाब्रिक्स ने $ 1.3 बिलियन के लिए MOSAICML का अधिग्रहण किया है और डेवलपर्स को बनाने में मदद करने वाले उपकरणों को रोल आउट किया हैमैं जल्दी से ऐप करता हूं। डेटाब्रिक्स की मोज़ेक अनुसंधान टीम ने एक नई टीएओ विधि विकसित की।

ब्रैंडन कुई, सुदृढीकरण लर्निंग लीड और सीनियर रिसर्च को महंगा मानव डेटा खरीदने के लिए फ्रंटियर लैब्स डेटा लेबलर्स का उपयोग करते हैं, “लेबल किया गया डेटा कठिन है और कमजोर लेबल सीधे कमजोर आउटपुट का नेतृत्व करेंगे।” “हम ग्राहकों से मिलना चाहते हैं, जहां वे हैं, लेबल एंटर एपी एपी गोद लेने के लिए एक बाधा थे, और ताओ के साथ, अब नहीं।”

तकनीकी नवाचार: कैसे ताओ एलएलएम फाइन-ट्यूनिंग का पुनर्निर्माण करता है

इसके मूल में, TAO एक उदाहरण को स्थानांतरित करता है कि कैसे डेवलपर्स विशिष्ट डोमेन के लिए मॉडल को निजीकृत करते हैं।

एक पारंपरिक देखे गए फाइन-ट्यूनिंग दृष्टिकोण के बजाय, जिसमें युग्मित इनपुट-आउटपुट उदाहरणों की आवश्यकता होती है, केवल उदाहरण क्वेरी का उपयोग करके मॉडल को बेहतर बनाने के लिए टीएओ सुदृढीकरण शिक्षा और व्यवस्थित अनुसंधान का उपयोग करते हैं।

तकनीकी पाइपलाइन कॉन्सर्ट में संचालित चार अलग -अलग तरीकों का उपयोग करती है:

अनुसंधान: सिस्टम Labelless इनपुट के बिना उदाहरण लेता है और समाधान स्थान की खोज करने वाली उन्नत प्रॉम्प्ट इंजीनियरिंग तकनीकों का उपयोग करके सभी के लिए कई संभावित उत्तरों का उत्पादन करता है।

उद्यम-कैलिब्रेटेड पुरस्कार मॉडलिंग: डेटाब्रिक्स पुरस्कार मॉडल (DBRM) द्वारा उत्पन्न उत्तरों का मूल्यांकन किया जाता है, जो विशेष रूप से उद्यम कार्यों पर प्रभाव का मूल्यांकन करने के लिए इंजीनियर हैं।

ताकत लर्निंग-आधारित मॉडल इष्टतम ptimization: इष्टतम मॉडल मापदंडों के बाद सुदृढीकरण शिक्षा द्वारा ptimized है, जो अनिवार्य रूप से सिखाता है एक सीधे उच्च स्कोरिंग प्रतिक्रिया का उत्पादन करने के लिए मॉडल।

निरंतर डेटा फ्लाई व्हील: उपयोगकर्ता तैनात प्रणाली के साथ बातचीत करते हैं, नए इनपुट स्वचालित रूप से एकत्र किए जाते हैं, अतिरिक्त मानव लेबलिंग प्रयासों के बिना एक आत्म-सुधार लूप बनाते हैं।

टेस्ट-टाइम काउंट एक नया विचार नहीं है। ओपन ने O1 लॉजिक मॉडल को विकसित करने के लिए एक परीक्षण-समय गणना का उपयोग किया, और DPCK R1 मॉडल को प्रशिक्षित करने के लिए समान तकनीकों को लागू किया। TAO को अन्य परीक्षण-समय गणना विधियों से अलग करता है कि जब यह प्रशिक्षण के दौरान अतिरिक्त गणना का उपयोग करता है, तो अंतिम ट्यून किए गए मॉडल में मूल मॉडल की समान पूर्वानुमान लागत होती है। यह उत्पाद तैनाती के लिए एक महत्वपूर्ण लाभ प्रदान करता है जहां अनुमानों के साथ अनुमान होता है।

“टीएओ केवल प्रशिक्षण प्रक्रिया के हिस्से के रूप में अतिरिक्त गणना का उपयोग करता है; यह प्रशिक्षण के बाद मॉडल की पूर्वानुमान लागत में वृद्धि नहीं करता है,” कुई ने समझाया। “लंबे समय में, हमें लगता है कि ओ 1 और आर 1 जैसे टीएओ और टेस्ट-टाइम कंप्यूट दृष्टिकोणों को पूरक करेगा-आप दोनों कर सकते हैं।”

बेंचमार्क पारंपरिक फाइन-ट्यूनिंग पर एक आश्चर्यजनक ऑपरेशन के किनारे को प्रकट करते हैं

डेटाब्रिक्स का शोध केवल पारंपरिक फाइन-ट्यूनिंग से मेल नहीं खाता है-यह इससे अधिक है। कई उद्यम-संबंधी बेंचमार्क में, डेटाब्रिक्स का दावा है कि काफी कम मानव प्रयासों के उपयोग के बावजूद दृष्टिकोण बेहतर है।

फाइनेंस बेंच (एक वित्तीय दस्तावेज़ Q & A बेंचमार्क) में, TAO ने लालमा 3.1 8B प्रदर्शन में 24.7 प्रतिशत अंक और लालमा 3.3 70B 13.4 अंक से सुधार किया। SQL पीढ़ी के लिए बर्ड-एसक्यूएल बेंचमार्क का उपयोग डेटाब्रिक्स की बोली में क्रमशः 19.1 और 8.7 अंक अपडेट किया गया है।

सबसे विशेष रूप से, ताओ-ट्यून लामा 3.3 70 बी ने इस बेंचमार्क-मॉडल में GPT-4O और O3-Mini प्रदर्शनियों से संपर्क किया, जो आमतौर पर उत्पादन वातावरण के लिए 10-20x खर्च होते हैं।

यह तकनीकी निर्णय एक आकर्षक मूल्य प्रस्ताव प्रस्तुत करता है: व्यापक रूप से आवश्यक लेबलिंग लागतों के बिना, डोमेन-विशिष्ट कार्यों पर अपने प्रीमियम समकक्षों की तुलना में छोटे, सस्ते मॉडल छोटे, सस्ते मॉडल को तैनात करने की क्षमता।

TAO उद्यम के लिए समय-बाजार लाभ को सक्षम करता है

जबकि TAO छोटे, अधिक कुशल मॉडल के उपयोग को सक्षम करके स्पष्ट लागत लाभ प्रदान करता है, इसका सबसे बड़ा मूल्य AI पहल के लिए समय-समय पर बाजार को बढ़ाने के लिए हो सकता है।

“हमें लगता है कि ताओ उद्यम को पैसे से अधिक मूल्यवान बचाता है: यह उन्हें समय बचाता है,” कुई ने कहा। “लेबल किए गए डेटा प्राप्त करने के लिए, आम तौर पर संगठनात्मक सीमाओं को पार करना, नई प्रक्रियाओं को व्यवस्थित करना, विषय विशेषज्ञों को लेबल करने और गुणवत्ता का परीक्षण करने के लिए आवश्यक है। एंटरी के पास एआई एआईएस मामले के प्रोटोटाइप के लिए कई पेशेवर इकाइयों को कॉन्फ़िगर करने के लिए महीने नहीं हैं।”

इस समय संपीड़न एक रणनीतिक लाभ बनाता है। उदाहरण के लिए, एक वित्तीय सेवा कंपनी एक अनुबंध विश्लेषण समाधान को लागू करने वाली कंपनी को हजारों दस्तावेजों को लेबल करने के लिए कानूनी टीमों की प्रतीक्षा करने के बजाय, केवल एक नमूना समझौते का उपयोग करके तैनात और दोहराया जा सकता है। इसी तरह, हेल्थकेयर संगठन विशेषज्ञ प्रतिक्रियाओं की एक जोड़ी का उपयोग करके नैदानिक ​​निर्णय समर्थन प्रणालियों में सुधार कर सकते हैं, केवल चिकित्सक प्रश्न।

कुई ने कहा, “हमारे शोधकर्ता हमारे ग्राहकों से बात करने में बहुत समय बिताते हैं, एआई सिस्टम बनाते समय और उन चुनौतियों को दूर करने के लिए वास्तविक चुनौतियों का सामना करने के लिए नई तकनीकों को विकसित करते हैं।” “हम पहले से ही कई उद्यम अनुप्रयोगों के लिए TAO को लागू कर रहे हैं और ग्राहकों को लगातार अपने मॉडल को दोहराने और सुधारने में मदद कर रहे हैं।”

तकनीकी निर्णय लेने के लिए इसका क्या मतलब है

एआई गोद लेने के लिए अग्रणी रोमांच के लिए, टीएओ संभावित प्रवृत्ति बिंदु का प्रतिनिधित्व करता है कि एआई सिस्टम कैसे आयोजित किए जाते हैं। व्यापक लेबल किए गए डेटासेट के बिना एक उच्च गुणवत्ता वाले, डोमेन-विशिष्ट प्रदर्शनी प्राप्त करना व्यापक एआई कार्यान्वयन में सबसे महत्वपूर्ण बाधाओं को समाप्त करता है।

यह दृष्टिकोण असंरचित डेटा और डोमेन-विशिष्ट आवश्यकताओं के समृद्ध ट्रोव के साथ यूनियनों को लाभान्वित करता है, लेकिन मैनुअल लेबलिंग के लिए सीमित संसाधन, जिसमें कई उद्योग खुद को पाते हैं।

उदाहरण के लिए, एआई अधिक प्रतिस्पर्धी लाभ, प्रौद्योगिकियों के लिए केंद्रीय हो जाता है, जो अवधारणा के लिए समय को संपीड़ित करते हैं, जबकि एक साथ ऑपरेशन में सुधार करने से नेताओं को लैगर्ड्स से अलग किया जाएगा। ताओ ऐसी तकनीक लगती है, जो संभावित रूप से उद्योगों को महीनों या क्वार्टर के बजाय एक सप्ताह में विशेष एआई क्षमताओं को लागू करने में सक्षम बनाती है।

वर्तमान में, TAO केवल डेटाब्रिक्स प्लेटफॉर्म पर उपलब्ध है और एक निजी पूर्वावलोकन में है।

Scroll to Top