छवि वास्तविकता का मूल्यांकन करने के लिए एआई भ्रम का उपयोग

रूस के नए शोध ने अवास्तविक एआई-जनित छवियों का पता लगाने के लिए एक अपरंपरागत विधि का प्रस्ताव किया है, न केवल विज़न-लैंग्वेज मॉडल (LVLMS) की सटीकता में सुधार करके, लेकिन जानबूझकर उनकी प्रवृत्ति का लाभ उठाकर।

उपन्यास के दृष्टिकोण में LVLMS का उपयोग करके एक छवि के बारे में कई ‘परमाणु तथ्य’ हैं, फिर प्राकृतिक भाषा के पूर्वानुमान (NLIS) को लागू करता है, इन कथनों के बीच संघर्षों को व्यवस्थित रूप से मापने के लिए-obely से मॉडल की गलतियों को नैदानिक ​​उपकरण में परिवर्तित करने के लिए जो परिष्कृत किया जाएगा।

सरणी से दो चित्र! LVLM मॉडल द्वारा स्वचालित रूप से उत्पन्न बयानों के साथ डेटासेट। बाईं छवि वास्तविक है, जो निरंतर विवरणों के लिए अग्रणी है, जबकि असामान्य दाहिनी छवि मॉडल को दिखाती है, विपरीत या गलत बयान का उत्पादन करती है। स्रोत: https://arxiv.org/pdf/2503.15948

एक अन्य छवि की वास्तविकता का मूल्यांकन करने के लिए, LVLM इसे देख सकता है कुछ चित्र में तीन कूबड़ हैं, जो प्रकृति में अज्ञात है।

हालांकि, LVLM शुरू में मिलावट है > 2 कूबड़ साथ > 2 जानवरक्योंकि यह एकमात्र तरीका है जिससे आप कभी भी ‘l lt चित्र’ में तीन कूबड़ देख सकते हैं। यह तब तीन कूबड़ (यानी, ‘दो सिर’) की तुलना में कुछ अधिक संभावना नहीं है और इसके संदेह को उत्तेजित करता है, कभी भी एक ही चीज़ का विवरण नहीं देता है – अप्रत्याशित अतिरिक्त कूबड़।

नए काम के शोधकर्ताओं ने पाया कि LVLM मॉडल मूल रूप से इस प्रकार का मूल्यांकन कर सकते हैं, और इस प्रकार के काम के लिए अच्छी तरह से ट्यून किए गए (या बेहतर) मॉडल के साथ। चूंकि फाइन-ट्यूनिंग लागू होने के मामले में जटिल, महंगा और बल्कि भंगुर है, इसलिए वर्तमान एआई क्रांति के एक शानदार तरीके के लिए मूल उपयोग का आविष्कार साहित्य के सामान्य रुझानों पर एक प्रेरणादायक मोड़ है।

खुला मूल्यांकन

दृष्टिकोण के महत्व, लेखकों ने कहा कि इसे तैनात किया जा सकता है उद्घाटन उपस्कर रूपरेखा। जबकि एक उन्नत और उच्च निवेश मॉडल जैसे कि CHATGPT (पेपर स्वीकार करता है) संभावित रूप से इस कार्य में बेहतर परिणाम प्रदान कर सकता है, हमारे अधिकांश लोगों के लिए साहित्य तर्क (और विशेष रूप से शौकवादी और VFX समुदायों के लिए) वास्तविक मूल्य है) स्थानीय कार्यान्वयन में नई सफलता को शामिल करने और विकसित करने की संभावना है; इसके विपरीत, सब कुछ वाणिज्यिक एपीआई प्रणाली के लिए निकासी, मनमानी कीमतों और सेंसरशिप नीतियों के अधीन है, जो उपयोगकर्ता की जरूरतों और जिम्मेदारियों की तुलना में कंपनी की कॉर्पोरेट चिंताओं को प्रतिबिंबित करने की संभावना है।

नए पेपर का शीर्षक है उदासी से न लड़ें, इसका उपयोग करें: परमाणु तथ्यों पर एनएलआई का उपयोग करके छवि वास्तविकता।। कार्य में एक GitHB पृष्ठ वाला एक पृष्ठ है।

तरीका

लेखक इज़राइली/यूएस हॉप्स पीएस का उपयोग करते हैं! परियोजना के लिए डेटासेट:

असंभव छवियों के उदाहरण! डेटासेट। यह उल्लेखनीय है कि ये चित्र तर्कसंगत तत्वों को कैसे जोड़ते हैं, और इन असंगत पहलुओं के आधार पर उनकी विसंगतियों की गणना की जानी चाहिए। स्रोत: https://whoops-benchmark.github.io/

असंभव छवियों के उदाहरण! डेटासेट। यह उल्लेखनीय है कि ये चित्र तर्कसंगत तत्वों को कैसे जोड़ते हैं, और इन असंगत पहलुओं के आधार पर उनकी विसंगतियों की गणना की जानी चाहिए। स्रोत: https://whoops-benchmark.github.io/

डेटासेट में 500 कृत्रिम चित्र और 10,874 एनोटेशन होते हैं, विशेष रूप से एआई मॉडल के तर्क और रचनात्मक समझ का परीक्षण करने के लिए डिज़ाइन किया गया है। यह टेक्स्ट-टू-इमेज सिस्टम जैसे कि मिडजर्नी और डीएल एल-ई सीरीज-उत्पादक मुश्किल या असंभव विचारों के माध्यम से चुनौतीपूर्ण छवियों का उत्पादन करने के लिए सौंपे गए डिजाइनरों के सहयोग से बनाया गया था, सावधानीपूर्वक पकड़ने के लिए:

Arrofs से अधिक उदाहरण! डेटासेट। स्रोत: https://huggingface.co/datasets/nlphuji/whoops

Arrofs से अधिक उदाहरण! डेटासेट। स्रोत: https://huggingface.co/datasets/nlphuji/whoops

नया दृष्टिकोण तीन चरणों में काम करता है: सबसे पहले, LVLM (विशेष रूप से llava-V 1.6-misthalary-7b) को कई सरल कथनों-कॉल किए गए ‘परमाणु तथ्यों का निर्माण करने के लिए कहा जाता है। एक छवि का विवरण। इन कथनों को विभिन्न बीम खोज का उपयोग करके उत्पादित किया जाता है, जो आउटपुट में परिवर्तन सुनिश्चित करता है।

विभिन्न बीम डिटेक्शन, पहले प्रस्तावित, विविधता-नेपकिन उद्देश्यों के लिए izing izing द्वारा विभिन्न प्रकार के tion ption विकल्पों का उत्पादन करता है। स्रोत: https://arxiv.org/pdf/1610.02424

विभिन्न बीम का पता लगाने में विविधताएं- ug, ganted उद्देश्य के लिए izing को ptimizing द्वारा tion ption विकल्पों में से बेहतर उत्पादन करती है। स्रोत: https://arxiv.org/pdf/1610.02424

अगला, प्रत्येक कथन एक प्राकृतिक भाषा पूर्वानुमान मॉडल का उपयोग करके एक दूसरे के बयान की तुलना करता है, जो प्रतिबिंबित स्कोर प्रदान करता है कि क्या यह एक जोड़ी, विरोधाभासी या एक दूसरे के प्रति तटस्थ है।

एक विरोधाभासी छवि उदासी या अवास्तविक तत्वों को इंगित करती है:

जांच पाइपलाइन के लिए स्किमा।

जांच पाइपलाइन के लिए स्किमा।

अंत में, विधि इन युग्मित एनएलआई स्कोर को एक एकल ‘वास्तविकता स्कोर’ में एकीकृत करती है जो उत्पादित बयानों की समग्र स्थिरता को प्रमाणित करती है।

शोधकर्ताओं ने विभिन्न समेकन विधियों का आविष्कार किया, एक क्लस्टरिंग-आधारित दृष्टिकोण के सर्वश्रेष्ठ प्रदर्शन के साथ। लेखकों ने व्यक्तिगत एनएलआई स्कोर को दो समूहों में अलग करने के लिए के-साधन क्लस्टरिंग एल्गोरिथ्म को लागू किया, और फिर निचले-मूल्य वाले क्लस्टर के सेंट्रोइड को अंतिम मीट्रिक के रूप में चुना गया।

दो समूहों का उपयोग सीधे वर्गीकरण कार्य की द्विआधारी प्रकृति के साथ समायोजित करता है, अर्थात्, वास्तविकता को अवास्तविक छवियों से अलग करना। तर्क समग्र के सबसे कम स्कोर को चुनने जैसा है; हालांकि, एकल आउटलर के आधार पर, क्लस्टरिंग मीट्रिक कई तथ्यों के लिए औसत विरोधाभास की अनुमति देता है।

आंकड़े

शोधकर्ताओं ने अपने सिस्टम का परीक्षण किया! बेसलाइन बेंचमार्क, घूर्णन परीक्षण विभाजन (यानी, क्रॉस-सत्यापन) का उपयोग करके। स्प्लिट्स ने 2 फ्लांट 5-एक्सएल और ब्लिप 2 फ्लांट 5-एक्सएक्सएल, और ब्लिप 2 फ्लांट 5-एक्सएक्सएल (यानी, अतिरिक्त प्रशिक्षण के बिना) को शून्य-शॉट टीओटी प्रारूप में ब्लिप किया था।

इंस्ट्रक्शन-स्ट्राइकिंग बेसलाइन के लिए, लेखकों ने इस वाक्य के साथ LVLMS से पूछा ‘क्या यह असामान्य है? कृपया एक छोटे से वाक्य के साथ जल्द ही समझाएं ‘जो पिछले अनुसंधान अवास्तविक छवियों को खोजने के लिए प्रभावी लग रहा था।

मूल्यांकन किए गए मॉडल 1.6 मिस्टल 7 बी, 13 बी लालवा 1.6 डब्ल्यूक्यू, और दो आकार (7/13 बिलियन आयाम) निर्देशात्मक थे।

परीक्षण प्रक्रिया 102 जोड़े वास्तविक और अवास्तविक (‘विषम’) छवियों पर केंद्रित थे। प्रत्येक जोड़ी में एक सामान्य छवि और एक कॉमन्सेंस-डिफाइंग समकक्ष शामिल थे।

तीन मानव ओटी ने छवियों को लेबल किया, जो 92%की आम सहमति तक पहुंच गया, जो ‘विचित्रता’ का गठन करने पर मजबूत मानव अनुबंध दिखा रहा है। मूल्यांकन विधियों की सटीकता को वास्तविक और अवास्तविक छवियों के बीच ठीक से अंतर करने की उनकी क्षमता से मापा गया था।

सिस्टम का मूल्यांकन तीन-गुना क्रॉस-सत्यापन का उपयोग करके किया गया था, जो निश्चित बीजों के साथ बेतरतीब ढंग से फेरबदल करता है। प्रशिक्षण के दौरान, लेखक प्रवेश स्कोर (तार्किक रूप से सहमत बयान) और कंट्रास्ट स्कोर (बयान जो तार्किक रूप से संघर्ष कर रहे हैं) के लिए वजन को समायोजित करते हैं, जबकि ‘तटस्थ’ स्कोर शून्य पर तय किए गए थे। अंतिम सटीकता को सभी परीक्षण विभाजन का औसत माना जाता था।

सटीकता द्वारा मापा गया पांच उत्पन्न तथ्यों के एक सबसेट पर विभिन्न एनएलआई मॉडल और समेकन विधियों की तुलना।

सटीकता द्वारा मापा गया पांच उत्पन्न तथ्यों के एक सबसेट पर विभिन्न एनएलआई मॉडल और समेकन विधियों की तुलना।

ऊपर दिखाए गए प्रारंभिक परिणामों के बारे में, कागज बताता है:

‘(‘ क्लस्ट ‘विधि सबसे अच्छे प्रदर्शन में से एक के रूप में। यह इंगित करता है कि सभी विपरीत स्कोर का समेकन केवल चरम मूल्यों पर ध्यान केंद्रित करने के बजाय महत्वपूर्ण है। इसके अलावा, सबसे बड़ा एनएलआई मॉडल (एनएलआई-डबेर्टा-वी 3-लार्ज) सभी को सभी समेकन विधियों के लिए सभी को धक्का देता है, यह सुझाव देता है कि यह अधिक प्रभावी रूप से निबंध को प्राप्त करता है। “

लेखकों ने पाया कि सबसे अच्छा वजन लगातार प्रवृत्ति के अनुकूल है, यह दिखाते हुए कि विरोधाभास अवास्तविक छवियों को अलग करने के लिए अधिक जानकारीपूर्ण हैं। उनकी विधि ने अन्य सभी शून्य-शॉट टी विधि का परीक्षण किया, जो ठीक-ठाक-ट्यून ब्लिप 2 मॉडल के संचालन के निकट से परीक्षण किया गया:

विभिन्न दृष्टिकोणों के उफ़ प्रदर्शन! बेंचमार्क। फाइन-ट्यून (एफटी) तरीके शीर्ष पर दिखाई देते हैं, जबकि शून्य-शॉट टी (जेडएस) विधियां नीचे सूचीबद्ध हैं। मॉडल का आकार मापदंडों की संख्या को इंगित करता है, और सटीकता मूल्यांकन का उपयोग मीट्रिक के रूप में किया जाता है।

विभिन्न दृष्टिकोणों के उफ़ प्रदर्शन! बेंचमार्क। फाइन-ट्यून (एफटी) तरीके शीर्ष पर दिखाई देते हैं, जबकि शून्य-शॉट टी (जेडएस) विधियां नीचे सूचीबद्ध हैं। मॉडल का आकार मापदंडों की संख्या को इंगित करता है, और सटीकता मूल्यांकन का उपयोग मीट्रिक के रूप में किया जाता है।

उन्होंने यह भी नोट किया, कुछ अप्रत्याशित रूप से, एक ही संकेत ने दिए गए तुलनात्मक लचीले मॉडल की तुलना में बेहतर प्रदर्शन किया। GPT-4 ON की सर्वश्रेष्ठ सटीकता को पहचानते समय, पेपर व्यावहारिक, खुले स्रोत समाधान दिखाने के लिए लेखकों के चयन पर जोर देता है, और ऐसा लगता है कि, एक नैदानिक ​​उपकरण के रूप में, भ्रम का शोषण करने में नवाचार का स्पष्ट रूप से दावा कर सकता है।

अंत

हालांकि, लेखक 2024 के फथस्कोर आउटिंग के लिए अपने परियोजना ऋण को स्वीकार करते हैं, जो डलास विश्वविद्यालय और जोन्स हॉपकिंस विश्वविद्यालय में टेक्सास विश्वविद्यालय के बीच एक सहयोग है।

FathScore का मूल्यांकन कैसे करता है, इसकी तस्वीर। सबसे पहले, वर्णनात्मक बयानों की पहचान LVLM- जनित उत्तर के भीतर की जाती है। इसके बाद, इन बयानों को व्यक्तिगत परमाणु तथ्यों में तोड़ दिया गया है। अंत में, परमाणु तथ्यों की तुलना उनकी सटीकता का परीक्षण करने के लिए इनपुट छवि से की जाती है। रेखांकित पाठ उद्देश्य वर्णनात्मक सामग्री पर प्रकाश डालता है, जबकि नीला पाठ भ्रम संबंधी बयानों को इंगित करता है, जिससे फेथस्कोर को तथ्यात्मक शुद्धता की व्याख्या के लिए मानदंड प्रदान करने की अनुमति मिलती है। स्रोत: https://arxiv.org/pdf/2311.01477

FathScore का मूल्यांकन कैसे करता है, इसकी तस्वीर। सबसे पहले, वर्णनात्मक बयानों की पहचान LVLM- जनित उत्तर के भीतर की जाती है। इसके बाद, इन बयानों को व्यक्तिगत परमाणु तथ्यों में तोड़ दिया गया है। अंत में, परमाणु तथ्यों की तुलना उनकी सटीकता का परीक्षण करने के लिए इनपुट छवि से की जाती है। रेखांकित पाठ उद्देश्य वर्णनात्मक सामग्री पर प्रकाश डालता है, जबकि नीला पाठ भ्रम संबंधी बयानों को इंगित करता है, जिससे फेथस्कोर को तथ्यात्मक शुद्धता की व्याख्या के लिए मानदंड प्रदान करने की अनुमति मिलती है। स्रोत: https://arxiv.org/pdf/2311.01477

FalhyScore छवि सामग्री के खिलाफ प्रासंगिकता की जांच करके LVLM- जनित विवरणों की वफादारी को मापता है, जबकि नए पेपर के तरीके स्पष्ट रूप से LVLM का उपयोग प्राकृतिक भाषा के अनुमान का उपयोग करके उत्पन्न तथ्यों के विपरीत अवास्तविक छवियों को खोजने के लिए करते हैं।

नया कार्य, स्वाभाविक रूप से, वर्तमान भाषा मॉडल की विचित्रता पर निर्भर करता है, और भ्रम की उनकी प्रकृति पर है। यदि मॉडल विकास को कभी भी पूरी तरह से गैर-परंपरात्मक मॉडल नहीं लाना चाहिए, तो नए काम के सामान्य सिद्धांतों को अब लागू नहीं किया जाएगा। हालांकि, यह एक चुनौतीपूर्ण संभावना है।

पहला मंगलवार, 25 मार्च, 2025 प्रकाशित

Scroll to Top