उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें
कंप्यूटर विजन परियोजनाएं शायद ही कभी योजना के अनुसार चलती हैं, और यह एक अपवाद नहीं था। यह विचार सरल था: एक ऐसा मॉडल बनाएं जो एक लैपटॉप की एक तस्वीर देख सके और किसी भी शारीरिक क्षति – फटा स्क्रीन, लापता कुंजियों या टूटी -फूटी टिकों की पहचान कर सके। यह छवि मॉडल और बड़े भाषा मॉडल (एलएलएम) के लिए प्रत्यक्ष उपयोग के मामले की तरह लग रहा था, लेकिन यह जल्दी से कुछ और जटिल में बदल गया।
जिस तरह से, हम उन मुद्दों पर भागे जो एक लैपटॉप, अविश्वसनीय आउटपुट और चित्र भी नहीं थे जो एक लैपटॉप भी नहीं थे। इसे हल करने के लिए, हमने एजेंसी फ्रेमवर्क के एजेंटों को लागू करना समाप्त कर दिया – टास्क ऑटोमेशन के लिए नहीं, बल्कि मॉडल के प्रदर्शन में सुधार करने के लिए।
इस पोस्ट में, हमने जो कोशिश की, उसका संयोजन, काम नहीं किया, और कैसे दृष्टिकोणों का संयोजन हमें कुछ विश्वसनीय बनाने में मदद करेगा।
हमने कहां से शुरू किया: मोनोलिथिक प्रॉम्प्टिंग
मल्टीमॉडल मॉडल के लिए हमारा प्रारंभिक दृष्टिकोण काफी मानक था। हमने छवि-सक्षम एलएलएम में छवि को पारित करने के लिए एक बड़े संकेत का उपयोग किया, और इसे दृश्य क्षति की पहचान करने के लिए कहा। यह अखंड शीघ्र रणनीति को लागू करना आसान है और स्वच्छ, अच्छी तरह से -अच्छी तरह से काम करने के लिए ठीक से काम करता है। लेकिन वास्तविक दुनिया के डेटा शायद ही कभी एक साथ खेलते हैं।
हम शुरू में तीन प्रमुख मुद्दों पर भाग गए:
- साहस: मॉडल कभी -कभी एक नुकसान की तलाश करेगा जो मौजूद नहीं है या वह गलत तरीके से क्या देख रहा था।
- कबाड़ छवि जांचउन छवियों को चिह्नित करने का कोई विश्वसनीय तरीका नहीं था जो एक लैपटॉप भी नहीं थे, जैसे कि डेस्क, दीवारें या लोगों की तस्वीरें कभी -कभी फिसलती और अनावश्यक क्षति की रिपोर्ट प्राप्त करती हैं।
- बेजोड़ता: इन समस्याओं के संयोजन ने परिचालन उपयोग के लिए मॉडल को अविश्वसनीय बना दिया।
यह वह बिंदु था जब यह स्पष्ट हो गया कि हमें दोहराने की आवश्यकता होगी।
पहला फिक्स: छवि संकल्पों का मिश्रण
एक बात जो हमने देखी कि छवि की गुणवत्ता ने मॉडल के आउटपुट को कितना प्रभावित किया। उपयोगकर्ताओं ने तेज और उच्च-रिज़ॉल्यूशन से लेकर अस्पष्ट तक सभी प्रकार की छवियों को अपलोड किया। यह प्रकाशन पर शोध को संदर्भित करता है कि कैसे छवि संकल्प ने शिक्षा मॉडल को प्रभावित किया है।
हमने उच्च और निम्न-रिज़ॉल्यूशन छवियों के संयोजन का उपयोग करके मॉडल को प्रशिक्षित और परीक्षण किया है। उस अभ्यास में पाई जाने वाली विभिन्न छवियों के गुणों के लिए मॉडल को अधिक लोचदार बनाने का विचार था। यह प्रासंगिकता में सुधार करने में मदद करता है, लेकिन भ्रम और कबाड़ छवि से निपटने के बुनियादी मुद्दे अपरिवर्तित रहते हैं।
मल्टीमॉडल करंट: केवल टेक्स्ट-ओनली एलएलएम मल्टीमॉडल जाता है
हाल के प्रयोगों द्वारा छवि को संलग्न करने के प्रयोगों द्वारा एक tion पाठ-केवल LLMs के साथ प्रस्तुत किया गया बैचजहां कुछ tions छवियों से उत्पन्न होते हैं और फिर भाषा के मॉडल डेल द्वारा व्याख्या की जाती है, हमने इसे आज़माने का फैसला किया।
यह ऐसे काम करता है:
- LLM एक छवि के लिए कई संभावित tions पोज़ का उत्पादन करके शुरू होता है।
- एक अन्य मॉडल जिसे एक मल्टीमॉडल एम्बेडिंग मॉडल कहा जाता है, यह जांचता है कि प्रत्येक q tion ption छवि कितनी अच्छी तरह से फिट बैठती है। इस मामले में, हमने छवि और पाठ के बीच समानता प्राप्त करने के लिए सिग्लिप का उपयोग किया।
- सिस्टम इन स्कोर के आधार पर शीर्ष कुछ tions रखता है।
- एलएलएम नए लिखने के लिए tions के शीर्ष tions का उपयोग करता है, जो वास्तव में दिखाता है कि छवि के करीब पहुंचने की कोशिश करता है।
- यह इस प्रक्रिया को तब तक दोहराता है जब तक कि यह tions में सुधार करना बंद नहीं करता है, या यह एक परिभाषित सीमा को हिट करता है।
हालांकि सिद्धांत में चतुर, इस दृष्टिकोण ने हमारे उपयोग के मामले के लिए नई समस्याओं को पेश किया:
- निरंतर भाग्य: C tions पोस्ट में कभी -कभी काल्पनिक क्षति शामिल होती है, जो तब आत्मविश्वास से LLMA की सूचना देती है।
- अधूरा कवरेज: इसके अलावा कई tions के साथ, कुछ मुद्दों को पूरी तरह से याद किया गया था।
- जटिलता में वृद्धि, थोड़ा लाभ: जोड़े गए चरणों ने पिछले सेटअप को मज़बूती से आगे बढ़ाए बिना सिस्टम को और अधिक जटिल बना दिया।
यह एक दिलचस्प प्रयोग था, लेकिन अंततः कोई उपाय नहीं था।
एजेंट फ्रेमवर्क का रचनात्मक उपयोग
यह मोड़ था। जबकि एजेंसी फ्रेमवर्क का उपयोग आमतौर पर ऑर्केस्ट्रेटिंग टास्क फ्लो के लिए किया जाता है (लगता है कि कैलेंडर लैंडर निमंत्रण या ग्राहक सेवा कार्यों का समन्वय करना), हमें आश्चर्य है कि क्या छवि व्याख्या कार्य छोटे, विशेष एजेंटों में मदद कर सकता है।
हमने इस तरह से डिज़ाइन किया गया एक एजेंट फ्रेमवर्क बनाया है:
- ऑर्केस्ट्रेशन एजेंट: इसने छवि की जांच की और पहचान की। लैपटॉप घटक क्या दिखाई देते हैं (स्क्रीन, कीबोर्ड, चेसिस, पोर्ट्स)।
- घटक एजेंट: समर्पित एजेंट विशिष्ट क्षति प्रकारों के लिए प्रत्येक घटक की निगरानी करते हैं; उदाहरण के लिए, एक फटा स्क्रीन के लिए, दूसरा लापता कुंजियों के लिए।
- कबाड़ जांच एजेंट: एक अलग एजेंट ने हरी झंडी दिखाई कि क्या छवि भी पहले स्थान पर एक लैपटॉप थी।
यह मॉड्यूलर, कार्य-आधारित दृष्टिकोण अधिक सटीक और समझाया गया परिणाम उत्पन्न करता है। उदासी नाटकीय रूप से गिर गई, कबाड़ की छवियों को मज़बूती से ध्वजांकित किया गया था, और प्रत्येक एजेंट का कार्य गुणवत्ता को नियंत्रित करने के लिए आसान और आसान था।
ब्लाइंड स्पॉट: एजेंटिक दृष्टिकोण का व्यापार
यह उतना प्रभावी नहीं था जितना कि यह था। दो मुख्य सीमाएं दिखाएं:
- देरी: कई अनुक्रमिक एजेंटों को चलाना कुल अनुमान के समय में जोड़ा जाता है।
- कवर अंतराल: एजेंट केवल उन मुद्दों को खोजने में सक्षम थे जो उन्हें स्पष्ट रूप से देखने के लिए प्रोग्राम किए गए थे। यदि किसी छवि ने कुछ अप्रत्याशित दिखाया है कि कोई भी एजेंट पहचानने के लिए नहीं सौंपा गया था, तो यह किसी के द्वारा नहीं लिया गया था।
हमें कवरेज के साथ सटीकता को समायोजित करने के लिए एक तरीके की आवश्यकता थी।
हाइब्रिड समाधान: एजेंटों और अखंड दृष्टिकोण का एक संयोजन
अंतराल को हटाने के लिए, हमने एक हाइब्रिड सिस्टम बनाया:
- यह एजेंटों पहले रन को संभालना, अच्छी तरह से ज्ञात क्षति के प्रकार, और जंक छवियों की सटीक जांच। हमने देरी में सुधार करने के लिए बहुत आवश्यक लोगों तक एजेंटों की संख्या को सीमित कर दिया है।
- फिर, ए अखंड छवि एलएलएम प्रॉम्प्ट एजेंट कुछ भी याद करने के लिए छवि को स्कैन करते हैं।
- अंत में, हम मॉडल को ठीक-ठीक कर दिया सटीकता और विश्वसनीयता में और सुधार करने के लिए, जैसे कि उच्च-संवेदी उपयोग के मामलों के लिए छवियों के एक क्यूरेट सेट का उपयोग करके अक्सर पंजीकृत क्षति के दृश्य।
इस संयोजन ने हमें एजेंसी सेटअप को बढ़ावा देने की सटीकता और स्पष्टीकरण दिया, मोनोलिथिक प्रॉम्प्टिंग की व्यापक कवरेज और लक्षित फाइन-ट्यूनिंग का आत्मविश्वास।
हमने क्या सीखा
जब तक हमने इस परियोजना को लपेटा, तब तक कुछ चीजें स्पष्ट हो गईं:
- एजेंट फ्रेमवर्क अधिक बहुमुखी है जितना वे अपना क्रेडिट प्राप्त करते हैं: जब वे आमतौर पर वर्कफ़्लो प्रबंधन से जुड़े होते हैं, तो हमने पाया कि जब एक संरचित, मॉड्यूलर तरीके से लागू किया जाता है तो वे मॉडल के प्रभाव को सार्थक रूप से बढ़ा सकते हैं।
- सिर्फ एक के आधार पर अलग -अलग दृष्टिकोण धड़कन का मिश्रण: एलएलएम के व्यापक कवरेज के साथ सटीक, एजेंट-आधारित जांच का एक संयोजन, साथ ही थोड़ा ठीक ट्यूनिंग जहां यह सबसे महत्वपूर्ण था, हमें अपने आप किसी भी विधि की तुलना में अधिक विश्वसनीय परिणाम दिया।
- विजुअल मॉडल डेल से भरे हुए हैं: अधिक उन्नत सेटअप भी निष्कर्षों पर कूद सकते हैं या वहां चीजों को देख सकते हैं। यह उन त्रुटियों को जांच में रखने के लिए एक विचारशील सिस्टम डिज़ाइन लेता है।
- विभिन्न प्रकार की छवि गुणवत्ता एक अंतर देती है: स्पष्ट, उच्च-रिज़ॉल्यूशन छवियों और हर रोज, कम गुणवत्ता वाली तस्वीरों के साथ प्रशिक्षण और परीक्षण, जब अप्रत्याशित, वास्तविक दुनिया की तस्वीरों का सामना करना पड़ता है, तो लोचदार रहने में मदद करता है।
- आपको जंक छवियों को पकड़ने का एक तरीका चाहिए: कबाड़ या असंबंधित चित्रों के लिए समर्पित चेक हमारे द्वारा किए गए सरल परिवर्तन थे, और इसके समग्र प्रणाली का एक बाहरी प्रभाव था।
अंतिम विचार
लैपटॉप छवियों में शारीरिक क्षति का पता लगाने के लिए एक एलएलएम प्रॉम्प्ट का उपयोग करके, जो एक साधारण विचार के रूप में शुरू हुआ, यह जल्दी से अप्रत्याशित, वास्तविक दुनिया की समस्याओं से निपटने के लिए विभिन्न एआई तकनीकों को संयोजित करने के लिए एक बहुत ही एर-टांडा प्रयोग में बदल गया। रास्ते में, हमने महसूस किया कि कुछ सबसे उपयोगी उपकरण इस प्रकार के मूल के लिए डिज़ाइन नहीं किए गए हैं।
एजेंटिक फ्रेमवर्क, जिसे अक्सर वर्कफ़्लो उपयोगिताओं के रूप में देखा जाता है, आश्चर्यजनक रूप से प्रभावी साबित होता है जब संरचित क्षति का पता लगाने और छवि फ़िल्टरिंग जैसे कार्यों के लिए फिर से प्रस्तुत किया जाता है। थोड़ी रचनात्मकता के साथ, उन्होंने हमें एक ऐसी प्रणाली बनाने में मदद की जो न केवल अधिक सटीक थी, बल्कि व्यवहार में समझने और प्रबंधित करने में आसान थी।
श्रुति तिवारी डेल टेक्नोलॉजीज में एआई उत्पाद प्रबंधक है।
वाडिरज कुलकर्णी डेल टेक्नोलॉजीज एक डेटा स्कैल्प है।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक स्कूप देते हैं कि विनियामक शिफ्ट से लेकर व्यावहारिक तैनाती तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
