यूसीएलए, यूसी मर्सेड और एडोब मेटल के शोधकर्ता: एक मल्टी-एजेंट फ्रेमवर्क जो विशेष एजेंटों में दोहराने के सहयोग में चार्ट पीढ़ी के कार्य को विभाजित करता है

उन चार्टों को बनाना जो जटिल डेटा को सटीक रूप से प्रतिबिंबित करते हैं, आज के डेटा विज़ुअलाइज़ेशन परिदृश्य में नियॉनसन की चुनौती है। अक्सर, इस फ़ंक्शन में न केवल विशिष्ट लेआउट, रंग और पाठ प्लेसमेंट, बल्कि इन दृश्य विवरणों को उस कोड में अनुवादित किया जाता है जो इच्छित डिजाइन को पुन: पेश करता है। पारंपरिक तरीके, जो GPT -4V जैसे विज़न -लैंगुएज मॉडल (VLM) के प्रत्यक्ष पूछ पर निर्भर करते हैं, अक्सर जटिल दृश्य तत्वों को एक सच्चे पायथन कोड में परिवर्तित करते समय कठिनाइयों का सामना करते हैं। इस प्रक्रिया के लिए मजबूत दृश्य डिजाइन संवेदनशीलता और सावधानी कोडिंग दोनों की आवश्यकता होती है – दो क्षेत्र जहां भी छोटी विसंगतियां उन चार्टों को भी जन्म दे सकती हैं जो उनके डिजाइन उद्देश्यों को पूरा करने में विफल होते हैं। इस तरह की चुनौतियां विशेष रूप से वित्तीय विश्लेषण, शैक्षणिक अनुसंधान और शैक्षिक रिपोर्ट जैसे क्षेत्रों में प्रासंगिक हैं, जहां डेटा परिचय में स्पष्टता और सटीकता सबसे अधिक है।

धातु: एक विचारशील मल्टी-एजेंट फ्रेमवर्क

यूसीएलए, यूसी मर्सेड और एडोब रिसर्च के शोधकर्ताओं ने धातु नामक एक नई संरचना का सुझाव दिया। यह प्रणाली चार्ट जनरेशन फ़ंक्शन को विशेष एजेंटों द्वारा संचालित केंद्रित चरणों की एक सीमा में विभाजित करती है। धातु में चार प्रमुख एजेंट होते हैं: एक पीढ़ी एजेंट, जो एक प्रारंभिक पायथन कोड का उत्पादन करता है; दृश्य आलोचक एजेंट, जो संदर्भ के खिलाफ उत्पादित चार्ट का मूल्यांकन करता है; कोड आलोचक एजेंट, जो अंतर्निहित कोड की समीक्षा करता है; और संशोधन एजेंट, जो प्राप्त प्रतिक्रिया के आधार पर कोड में सुधार करता है। इनमें से प्रत्येक भूमिका अधिक जानबूझकर और दोहराया दृष्टिकोण को धातु चार्ट के निर्माण के लिए सक्षम बनाती है, एजेंट को एजेंट को असाइन करती है। यह संरचनात्मक विधि यह सुनिश्चित करने में मदद करती है कि चार्ट के दृश्य और तकनीकी दोनों तत्वों को सावधानीपूर्वक माना जाता है और समायोजित किया जाता है, जिससे आउटपुट होते हैं जो मूल संदर्भ को अधिक आत्मविश्वास से दर्पण देते हैं।

तकनीकी अंतर्दृष्टि और व्यावहारिक लाभ

धातु की विशेष विशेषताओं में से एक इसका मॉड्यूलर डिज़ाइन है। दृश्य व्याख्या और कोड पीढ़ी दोनों को संभालने के लिए एक मॉडल की अपेक्षा करने के बजाय, फ्रेमवर्क इन जिम्मेदारियों को समर्पित एजेंटों में विभाजित करता है। जनरेशन एजेंट दृश्य जानकारी को पायथन निर्देशों के प्रारंभिक सेट में परिवर्तित करके शुरू करता है। विजुअल क्रिटिकल एजेंट तब एक चार्ट की जांच करता है, जो लेआउट या रंग वफादारी जैसे डिजाइन तत्वों में विसंगतियों की पहचान करता है। इसी समय, कोड आलोचक एजेंट किसी भी सिंटैक्टिकल त्रुटियों या तार्किक मुद्दों को कैप्चर करने के लिए उत्पन्न कोड की निगरानी करता है जो चार्ट की सटीकता को कमजोर करता है। अंत में, संशोधन एजेंट दोनों महत्वपूर्ण एजेंटों की प्रतिक्रिया पर विचार करता है और तदनुसार कोड को समायोजित करता है।

धातु का एक और महत्वपूर्ण पहलू परीक्षण के समय संसाधन स्केलिंग के लिए इसका दृष्टिकोण है। फ्रेमवर्क का प्रदर्शन लगभग रैखिक फैशन में सुधार के लिए देखा गया है क्योंकि लॉगरिथिक कम्प्यूटेशनल बजट वृद्धि 512 से 8192 टोकन तक देखी गई है। यह संबंध इंगित करता है कि जब अतिरिक्त गणना संसाधन उपलब्ध होते हैं, तो फ्रेमवर्क अधिक शुद्ध आउटपुट का उत्पादन करने में सक्षम होता है। प्रत्येक पास के साथ कोड और चार्ट को परिष्कृत करके, धातु स्पष्टीकरण या विस्तृत बलिदान के बिना सटीकता के ऊंचे स्तर को प्राप्त करता है।

प्रायोगिक अंतर्दृष्टि और मापा परिणाम

धातु के प्रभाव का मूल्यांकन एक चार्टमिक डेटासेट पर किया जाता है, जिसमें उनके संबंधित वेतन उत्पादन निर्देशों के साथ चार्ट के सावधानीपूर्वक क्यूरेट किए गए उदाहरण शामिल हैं। मूल्यांकन पाठ स्पष्टता, चार्ट प्रकार सटीकता, रंग स्थिरता और लेआउट परिशुद्धता जैसे प्रमुख पहलुओं पर केंद्रित है। अधिक पारंपरिक दृष्टिकोणों की तुलना में – जैसे कि प्रत्यक्ष संकेत और बढ़ाया सिग्नल विधियों – संदर्भ चार्ट की नकल करना – अपडेट दिखा रहा है। उदाहरण के लिए, जब लालमा 2.1-5 बी जैसे ओपन-सन मॉडल पर परीक्षण किया जाता है, तो धातु आउटपुट का उत्पादन करता है, जो औसत, पारंपरिक तरीकों से उत्पन्न संदर्भ चार्ट की सटीकता के करीब थे। इसी तरह के पैटर्न को GPT-4O जैसे क्लॉज़-सेयर्स मॉडल के साथ देखा गया था, जहां अतिरिक्त शोधन ने आउटपुट का नेतृत्व किया जो अधिक सटीक और नेत्रहीन प्रासंगिक थे।

एबेलिकेशन अध्ययन से जुड़े आगे का विश्लेषण दृश्य और कोड पहलुओं के लिए विभिन्न महत्वपूर्ण तरीकों को बनाए रखने के महत्व को प्रकाशित करता है। जब इन घटकों को एक महत्वपूर्ण एजेंट में विलय कर दिया गया, तो ऑपरेशन कम हो गया। यह अवलोकन इंगित करता है कि एक संबंधित दृष्टिकोण-दृश्य डिजाइन और कोड सटीकता की बारीकियों को अलग-अलग संबोधित किया जाता है-उच्चतम गुणवत्ता वाले चार्ट पीढ़ी को सुनिश्चित करने में एक महत्वपूर्ण भूमिका निभाता है।

निष्कर्ष: बढ़ाया चार्ट पीढ़ी के लिए मापा दृष्टिकोण

सारांश में, धातु चार्ट कार्य को विशिष्ट, दोहरावदार चरणों में विघटित करके, पीढ़ी की चुनौती के लिए एक संतुलित, बहु-एजेंट दृष्टिकोण प्रदान करता है। काम के कलात्मक और तकनीकी दोनों मापदंडों का प्रबंधन करने के लिए एक एकल मॉडल पर भरोसा करने के बजाय, धातु समर्पित एजेंटों, दृश्य आलोचकों, कोड आलोचकों और पुनरावृत्ति को कार्यभार का भुगतान करता है। यह विधि न केवल पायथन कोड में दृश्य डिजाइन के अधिक एहतियाती अनुवाद की सुविधा प्रदान करती है, बल्कि त्रुटि जांच और सुधार की व्यवस्थित प्रक्रिया की भी अनुमति देती है।

इसके अलावा, बढ़े हुए परिकलित संसाधनों के साथ सुधार करने की फ्रेमवर्क की क्षमता इसके निकटतम रैखिक स्केलिंग से प्रभावित होती है, जो इसके निकटतम टोकन-इंडिकोर्स के साथ सेटिंग में इसकी व्यावहारिक संभावना है जहां सटीकता महत्वपूर्ण है। जबकि अभी भी इष्टतम ptimization के लिए गुंजाइश है, विशेष रूप से गणना के ओवरहेड को कम करने और ट्यूनिंग प्रॉम्प्ट इंजीनियरिंग को बेहतर ढंग से कम करने के लिए, धातु एक विचारशील कदम का परिचय देता है। मापा, बार -बार शुद्धि प्रक्रिया पर इसका बोझ इसे उन अनुप्रयोगों के लिए एक आशाजनक उपकरण बनाता है जहां एक विश्वसनीय चार्ट पीढ़ी की आवश्यकता होती है।


जाँच करना पेपर, कोड और प्रोजेक्ट पेज। इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एकीकृत करने वाला एक उन्नत प्रणाली


ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top