उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें
आज, अपने वार्षिक डेटा + एआई शिखर सम्मेलन में, डेटाब्रिक्स ने घोषणा की कि वह अपाचे स्पार्क घोषणा पाइपलाइनों के रूप में अपने मुख्य रहस्योद्घाटन ईटीएल फ्रेमवर्क को खोल रहा है, जो अगली रिलीज में पूरे अपाचे स्पार्क समुदाय के लिए उपलब्ध है।
डेटाब्रिक्स ने 2022 में डेल्टा लाइव टेबल (डीएलटी) के रूप में फ्रेमवर्क शुरू किया और फिर है इसका विस्तार किया टीम अंत से अंत और संचालित करने के लिए विश्वसनीय, स्केलेबल डेटा पाइपलाइनों में मदद करती है। ओपन-सन की ओर कार्रवाई कंपनी के पारिस्थितिक तंत्र को खोलने की प्रतिबद्धता को मजबूत करती है, जबकि वन-अप प्रतिद्वंद्वी स्नोफ्लेक के प्रयासों को चिह्नित करते हैं, जिसने हाल ही में डेटा एकीकरण के लिए अपनी ओपनफ्लो सेवा लॉन्च की थी-डेटा इंजीनियरिंग के महत्वपूर्ण घटक।
कोई भी स्रोत अपने प्लेटफ़ॉर्म पर किसी भी डेटा को केंद्र में रखने के लिए स्नोफ्लेक प्रदान करता है, जबकि डेटाब्रिक्स अपने इन-हाउस पाइपलाइन इंजीनियरिंग टेक्नोल को उजागर करता है।
पाइपलाइनों की घोषणा करें, चिंगारी को बाकी को संभालने दें
परंपरागत रूप से, डेटा इंजीनियरिंग तीन मुख्य दर्द बिंदुओं के साथ जुड़ा हुआ है: जटिल पाइपलाइन एथिंग, मैनुअल संचालन शायद ओवरहेड और बैच और स्ट्रीमिंग कार्यभार के लिए अलग -अलग सिस्टम बनाए रखने की आवश्यकता है।
स्पार्क घोषणात्मक पाइपलाइनों के साथ, इंजीनियरों का वर्णन है कि उनकी पाइपलाइन को SQL या पायथन का उपयोग करके क्या करना चाहिए, और अपाचे स्पार्क निष्पादन को संभालता है। फ्रेमवर्क स्वचालित रूप से तालिकाओं के बीच निर्भरता पर निर्भर करता है, तालिका निर्माण और विकास का प्रबंधन करता है, और उत्पादन में समानांतर निष्पादन, चौकियों और पुनरावृत्ति जैसे परिचालन कार्यों को संभालता है।
“आप डेटासेट और डेटा प्रवाह की एक श्रृंखला की घोषणा करते हैं, और अपाचे स्पार्क आंकड़े उचित निष्पादन योजना से बाहर हैं,” माइकल आर्मब्रिस्ट ने कहा, वेंचरबीट के साथ एक साक्षात्कार में डेटाब्रिक्स के एक गणमान्य व्यक्ति।
फ्रेमवर्क अमेज़ॅन एस 3, एडीएलएस या जीसीएस जैसे ऑब्जेक्ट बॉडी स्टोरेज सिस्टम से बैच, स्ट्रीमिंग और सेमी-स्ट्रक्चर डेटा का समर्थन करता है। इंजीनियरों को केवल एक ही एपीआई के माध्यम से वास्तविक समय और आवधिक प्रक्रिया को परिभाषित करना होगा, जिसमें पाइपलाइन की परिभाषाएँ निष्पादन से पहले मान्य थीं, इसे जल्द ही पकड़ने के लिए नहीं-सिस्टम को बनाए रखने की आवश्यकता नहीं थी।
आर्मब्रिस्ट बताते हैं, “यह आधुनिक डेटा की वास्तविकताओं के लिए डिज़ाइन किया गया है जैसे कि चेंज डेटा फीड, मैसेज बसें और रियल-टाइम एनालिटिक्स जो कि एआई सिस्टम को पावर करते हैं। यदि अपाचे स्पार्क इसे (डेटा) को संसाधित कर सकते हैं, तो ये पाइपलाइन इसे नियंत्रित कर सकती हैं,” आर्मब्रिस्ट बताते हैं। उन्होंने कहा कि घोषणात्मक दृष्टिकोण अपाचे स्पार्क को सुविधाजनक बनाने के लिए डेटाब्रिक्स के हाल के प्रयासों को चिह्नित करता है।
“सबसे पहले, हमने आरडीडी (लोचदार वितरित डेटासेट) के साथ एक कंप्यूटिंग कार्यात्मक वितरित किया। फिर हमने स्पार्क एसक्यूएल के साथ एक क्वेरी निष्पादन की घोषणा की। हम एक ही मॉडल को संरचित स्ट्रीमिंग के साथ स्ट्रीमिंग के लिए लाया और डेल्टा लेक के साथ क्लाउड स्टोरेज बनाने के लिए।”
मानक
जबकि घोषणात्मक पाइपलाइन फ्रेमवर्क स्पार्क कोडबेस के लिए प्रतिबद्ध है, इसका करतब पहले से ही हजारों कारनामों के लिए जाना जाता है, जिन्होंने इसे दैनिक बैच रिपोर्टिंग से उप-सेकंड स्ट्रीमिंग अनुप्रयोगों के लिए कार्यभार को संभालने के लिए डेटाब्रिक्स के लेकफ्लो समाधान के हिस्से के रूप में इसका उपयोग किया है।
लाभ पूरे बोर्ड के समान हैं: आप पाइपलाइनों या रखरखाव कार्यों को विकसित करने पर कम समय बिताते हैं, और जो आप बनाना चाहते हैं उसके आधार पर बेहतर प्रदर्शन, देरी या मूल्य प्राप्त करते हैं।
फाइनेंशियल सर्विसेज कंपनी ब्लॉक ने विकास के समय को 90%से अधिक कम करने के लिए रूपरेखा का उपयोग किया, जबकि नेवी फेडरल क्रेडिट यूनियन ने पाइपलाइन रखरखाव के समय को 99%तक कम कर दिया। स्पार्क संरचित स्ट्रीमिंग इंजन, जिस पर घोषणात्मक पाइपलाइन बनाई जाती हैं, टीमों को अपनी विशेष देरी के लिए पाइपलाइनों के अनुरूप, वास्तविक समय की स्ट्रीमिंग के लिए सक्षम बनाती है।
नेवी फेडरल क्रेडिट यूनियन के वरिष्ठ इंजीनियरिंग मैनेजर जियान चिड़ियाघर ने कहा, “एक इंजीनियरिंग मैनेजर के रूप में, मुझे यह पसंद है कि मेरे इंजीनियर इस बात पर ध्यान केंद्रित कर सकते हैं कि व्यवसाय में सबसे महत्वपूर्ण क्या है।” “अब यह देखना रोमांचक है कि नवाचार का यह स्तर खोला गया है, जो इसे अधिक टीमों के लिए सुलभ बनाता है।”
.5 84..5 के सीनियर डेटा इंजीनियर ब्रैड टर्नब औग ने नोट किया है कि उनकी टीम ने प्रबंधन करने के लिए आवश्यक कोड की मात्रा को कम करके “बैच और स्ट्रीमिंग” दोनों का समर्थन किए बिना बैच और स्ट्रीमिंग दोनों का समर्थन करना आसान बना दिया है।
स्नोफ्लेक से विभिन्न दृष्टिकोण
डेटाब्रिक्स में सबसे बड़े प्रतिद्वंद्वियों में से एक, स्नोफ्लेक ने ओपनफ्लो नामक अंतर्ग्रहण सेवा को डेब्यू करके डेटा चुनौतियों को समाप्त करने के लिए अपने नवीनतम सम्मेलन में कार्रवाई की है। हालांकि, उनका दृष्टिकोण अंतरिक्ष के संदर्भ में डेटाब्रिक्स से अलग है।
अपाचे निफाई पर निर्मित ओपनफ्लो मुख्य रूप से स्नोफ्लेक के मंच पर डेटा एकीकरण और गति पर केंद्रित है। एक बार एक स्नोफ्लेक में, उपयोगकर्ताओं को अभी भी साफ, रूपांतरित और समग्र रूप से साफ करने की आवश्यकता है। दूसरी ओर, चिंगारी ढलान वाली पाइपलाइनों से उपयोगी डेटा के स्रोत तक जाती है।
“स्पार्क घोषणात्मक पाइपलाइनों को उपयोगकर्ताओं को सशक्त बनाने के लिए डिज़ाइन किया गया है कि वे परिवर्तन की आसानी और उस परिवर्तन के साथ जटिल पाइपलाइन संचालन पर एंड-टू-एंड डेटा पाइपलाइनों को स्पिन करने के लिए सशक्त बनाएं।”
स्पार्क घोषणात्मक पाइपलाइनों का खुला स्रोत भी इसे स्वामित्व समाधान से अलग करता है। उपयोगकर्ताओं को प्रौद्योगिकी का लाभ उठाने के लिए डेटाब्रिक्स ग्राहक होने की आवश्यकता नहीं है, कंपनी की बड़ी परियोजनाओं में योगदान करने के इतिहास के साथ गठबंधन करना, जैसे कि डेल्टा लेक, एमएलएफएलओएलओ और यूनिटी कैटलॉग जैसे ओपन सोर्स समुदाय में बड़ी परियोजनाएं।
उपलब्धता समयरेखा
अगली रिलीज़ में अपाचे स्पार्क डिस्पैरेटरी पाइपलाइनों को अपाचे स्पार्क कोडबेस के लिए प्रतिबद्ध किया जाएगा। हालांकि, सटीक समयरेखा अस्पष्ट है।
आर्मब्रस्ट ने कहा, “जब से हमने इसे शुरू किया है, तब से हम अपने डिक्वरी पाइपलाइन फ्रेमवर्क को खोलने की संभावना के बारे में उत्साहित हैं।” “पिछले 3+ वर्षों में, हमने उन पैटर्नों के बारे में बहुत कुछ सीखा है जो सबसे अच्छा काम करते हैं और कुछ को ठीक-ठीक करने की आवश्यकता होती है। अब यह साबित होता है और खुले में खिलता है।”
ओपन सोर्स रोलआउट डेटाब्रिक्स लेकफ्लो भी घोषणात्मक पाइपलाइनों की सामान्य उपलब्धता के साथ मेल खाता है, प्रौद्योगिकी का एक वाणिज्यिक संस्करण जिसमें अतिरिक्त उद्यम सुविधाएँ और समर्थन शामिल हैं।
DataBrix डेटा + AI शिखर सम्मेलन 9 से 12 जून, 2025 तक चलता है
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
