महीन-कैम एआई एक दृश्य स्पष्टीकरण में क्रांति करता है: एक ठीक-ठीक दाने वाली छवि वर्गीकरण में सटीकता के राजा को उकसाना

ओहियो स्टेट यूनिवर्सिटी के शोधकर्ताओं ने फिनर-सीएएम पेश किया है, जो एक अभिनव विधि है जो ठीक-ठाक वर्गीकरण कार्यों में छवि स्पष्टता की सटीकता और व्याख्या में काफी सुधार करती है। यह उन्नत तकनीक मौजूदा वर्ग सक्रियण मानचित्र (CAM) विधियों की मुख्य सीमाओं को स्पष्ट रूप से समान श्रेणियों के बीच सूक्ष्म अभी तक महत्वपूर्ण अंतर को रोशन करके मानती है।

पारंपरिक k ammm के साथ वर्तमान चुनौती

पारंपरिक सीएएम तरीके आमतौर पर तंत्रिका नेटवर्क की भविष्यवाणियों को प्रभावित करने वाले सामान्य क्षेत्रों को समझाते हैं लेकिन निकटता से संबंधित वर्गों को अलग करने के लिए आवश्यक अच्छे विवरणों को अलग करने में विफल रहते हैं। यह क्षेत्रों में महत्वपूर्ण चुनौतियों की ओर जाता है, जैसे कि प्रजातियों की पहचान, मोटर वाहन मॉडल वैधता और विमान प्रकार के अंतर के प्रकार।

महीन-कैम: सफल सफलता

महीन-कैम का केंद्रीय नवाचार इसमें है तुलनात्मक स्पष्टीकरण रणनीति। पारंपरिक सीएएम विधियों के विपरीत, जो एक ही वर्ग के पूर्वानुमानों पर ध्यान केंद्रित करते हैं, महीन-सीएएम स्पष्ट रूप से समान वर्गों के साथ लक्ष्य वर्ग का खंडन करता है। ग्रैड लैप की गणना करके, लक्ष्य वर्ग और इसके समान समकक्षों के बीच भविष्य कहनेवाला लॉगिट के अंतर के आधार पर, यह अद्वितीय छवि सुविधाओं को प्रदर्शित करता है, दृश्य विनिर्देशों की स्पष्टता और सटीकता को बढ़ाता है।

मुझे पाइपलाइन

महीन-सीएएम की कार्यप्रणाली पाइपलाइन में तीन मुख्य चरण होते हैं:

  1. सुविधा निकालना:
    • इनपुट छवि पहले तंत्रिका नेटवर्क एनकोडर ब्लॉक से गुजरती है, जो एक मध्यवर्ती सुविधा के नक्शे का उत्पादन करती है।
    • बाद में रैखिक वर्गीकृत भविष्यवाणी इस सुविधा के नक्शे का उत्पादन करने के लिए उपयोग करती है, जो विभिन्न वर्गों के लिए भविष्यवाणियों के विश्वास को प्रमाणित करती है।
  2. ग्रेड डॉल करंट (लॉगिट अलग):
    • मानक सीएएम विधियाँ एक वर्ग के लिए ग्रेड DAL की गणना करती हैं।
    • महीन-कैम लक्ष्य वर्ग के भविष्यवाणी लॉगिट और दृष्टि के एक ही वर्ग के बीच अंतर के आधार पर ग्रेडिएंट की गणना करता है।
    • यह तुलना आम तौर पर साझा सुविधाओं को दबाकर लक्ष्य वर्ग के लिए विशेष भेदभावपूर्ण सूक्ष्म दृश्य सुविधाओं को पहचानती है।
  3. सक्रियण हाइलाइटिंग:
    • लॉगिट अंतर से गणना की गई ग्रेड डीएएल का उपयोग बढ़ाया वर्ग सक्रियण मानचित्र बनाने के लिए किया जाता है जो समान श्रेणियों के बीच अंतर के लिए महत्वपूर्ण भेदभाव दृश्य विवरणों पर जोर देते हैं।

प्रायोगिक विश्वास

B.1 नमूना सटीकता

शोधकर्ताओं ने दो लोकप्रिय न्यूरल नेटवर्क बैकबोन, क्लिप और डिनोव 2 पर फाइन-सीएएम का मूल्यांकन किया। प्रयोगों से पता चलता है कि DENOV2 आम तौर पर उच्च गुणवत्ता वाले दृश्य एम्बेडिंग का उत्पादन करता है, सभी परीक्षण किए गए डेटासेट में क्लिप की तुलना में सर्वश्रेष्ठ वर्गीकरण की सटीकता को प्राप्त करता है।

बी .2 फिशविस्ट और विमान पर परिणाम

फिशविस्टा और विमान डेटासेट पर मात्रात्मक मूल्यांकन महीन-कैम की प्रभावशीलता को दर्शाता है। बेसलाइन सीएएम विधियों (ग्रेड-कैम, लेयर-कैम, स्कोर-कैम) की तुलना में, महीन-सीएएम ने लगातार प्रदर्शन मेट्रिक्स में लगातार सुधार किया, विशेष रूप से प्रासंगिक आत्मविश्वास ड्रॉप की सटीकता और स्थानीयकरण की सटीकता में, ठीक-ठीक वर्गीकरण के लिए महत्वपूर्ण विवरणों को अलग करने की अपनी क्षमता को दर्शाते हैं।

बी .3 DINOV 2 पर परिणाम

एक बैकबोन के रूप में DENOV2 का उपयोग करते हुए अतिरिक्त मूल्यांकन से पता चला है कि महीन-सीएएम लगातार आधारभूत तरीकों को धक्का देता है। इन परिणामों से संकेत मिलता है कि महीन-सीएएम की तुलनात्मक विधि स्थानीयकरण संचालन और व्याख्या को प्रभावी ढंग से बढ़ाती है। DENOV2 की उच्च सटीकता के कारण, भविष्यवाणियों पर एक महत्वपूर्ण प्रभाव डालने के लिए अधिक पिक्सेल को KED की आवश्यकता होती है, जिसके परिणामस्वरूप क्लिप की तुलना में बड़े tion के AUC मान होते हैं और कभी -कभी छोटे संबंधित आत्मविश्वास को कम करते हैं।

दृश्य और मात्रात्मक लाभ

  • बहुत विशिष्ट स्थानीयकरण: स्पष्ट रूप से भेदभावपूर्ण दृश्य विशेषताएं, जैसे कि पक्षियों में विशिष्ट रंग पैटर्न, कार में विस्तृत संरचनात्मक तत्व और विमान में सूक्ष्म डिजाइन विविधताएं।
  • पृष्ठभूमि शोर कम करें: एक्सपोज़र की प्रासंगिकता को बढ़ाते हुए, काफी अप्रासंगिक पृष्ठभूमि सक्रियण को कम करता है।
  • मात्रात्मक उत्कृष्टता: मैट्रिक्स में पारंपरिक सीएएम दृष्टिकोण (ग्रेड-कैम, लेयर-कैम, स्कोर-कैम) को आउटपेरस, संबंधित आत्मविश्वास और स्थानीयकरण की सटीकता सहित।

मल्टी-मॉडल को शून्य-शॉट टोटल लर्निंग सीरीज़ के लिए विस्तारित किया गया

महीन-कैम मल्टी-मॉडल को शून्य-शॉट टीएस सीखने के विचारों के लिए बढ़ाया गया है। पाठ और दृश्य सुविधाओं के अनुष्ठानों की तुलना करके, यह सटीक रूप से दृश्य अवधारणाओं को छवियों में स्थानांतरित करेंमहत्वपूर्ण रूप से इसकी लागू और व्याख्या का विस्तार करें।

शोधकर्ताओं ने स्रोत कोड और COLAB डेमो का फिनर-कैम बनाया है।


    जाँच करना यह कागज़, Githb और डेमो इस शोध के लिए सभी श्रेय इस परियोजना के शोधकर्ताओं को जाते हैं। इसके अलावा, हमें फॉलो करने के लिए स्वतंत्र महसूस करें ट्विटर और हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड

    अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए


    जीन-मार्क एक सफल एआई बिजनेस एक्जीक्यूटिव है। यह एआई-संचालित समाधानों के लिए विकास की ओर जाता है और 2006 में एक कंप्यूटर विजन कंपनी को तेज करता है। वह एआई सम्मेलन में एक मान्यता प्राप्त वक्ता और स्टैनफोर्ड के एमबीए हैं।

    🚨 अनुशंसित ओपन-सीरस एआई प्लेटफॉर्म: ‘इंटेलिजेंट एक ओपन सोर्स मल्टी-एजेंट फ्रेमवर्क है जो कॉम्प्लेक्स वार्तालाप एआई सिस्टम का मूल्यांकन करता है’ (ईडी)

Scroll to Top