रूस के नए शोध ने अवास्तविक एआई-जनित छवियों का पता लगाने के लिए एक अपरंपरागत विधि का प्रस्ताव किया है, न केवल विज़न-लैंग्वेज मॉडल (LVLMS) की सटीकता में सुधार करके, लेकिन जानबूझकर उनकी प्रवृत्ति का लाभ उठाकर।
उपन्यास के दृष्टिकोण में LVLMS का उपयोग करके एक छवि के बारे में कई ‘परमाणु तथ्य’ हैं, फिर प्राकृतिक भाषा के पूर्वानुमान (NLIS) को लागू करता है, इन कथनों के बीच संघर्षों को व्यवस्थित रूप से मापने के लिए-obely से मॉडल की गलतियों को नैदानिक उपकरण में परिवर्तित करने के लिए जो परिष्कृत किया जाएगा।
सरणी से दो चित्र! LVLM मॉडल द्वारा स्वचालित रूप से उत्पन्न बयानों के साथ डेटासेट। बाईं छवि वास्तविक है, जो निरंतर विवरणों के लिए अग्रणी है, जबकि असामान्य दाहिनी छवि मॉडल को दिखाती है, विपरीत या गलत बयान का उत्पादन करती है। स्रोत: https://arxiv.org/pdf/2503.15948
एक अन्य छवि की वास्तविकता का मूल्यांकन करने के लिए, LVLM इसे देख सकता है कुछ चित्र में तीन कूबड़ हैं, जो प्रकृति में अज्ञात है।
हालांकि, LVLM शुरू में मिलावट है > 2 कूबड़ साथ > 2 जानवरक्योंकि यह एकमात्र तरीका है जिससे आप कभी भी ‘l lt चित्र’ में तीन कूबड़ देख सकते हैं। यह तब तीन कूबड़ (यानी, ‘दो सिर’) की तुलना में कुछ अधिक संभावना नहीं है और इसके संदेह को उत्तेजित करता है, कभी भी एक ही चीज़ का विवरण नहीं देता है – अप्रत्याशित अतिरिक्त कूबड़।
नए काम के शोधकर्ताओं ने पाया कि LVLM मॉडल मूल रूप से इस प्रकार का मूल्यांकन कर सकते हैं, और इस प्रकार के काम के लिए अच्छी तरह से ट्यून किए गए (या बेहतर) मॉडल के साथ। चूंकि फाइन-ट्यूनिंग लागू होने के मामले में जटिल, महंगा और बल्कि भंगुर है, इसलिए वर्तमान एआई क्रांति के एक शानदार तरीके के लिए मूल उपयोग का आविष्कार साहित्य के सामान्य रुझानों पर एक प्रेरणादायक मोड़ है।
खुला मूल्यांकन
दृष्टिकोण के महत्व, लेखकों ने कहा कि इसे तैनात किया जा सकता है उद्घाटन उपस्कर रूपरेखा। जबकि एक उन्नत और उच्च निवेश मॉडल जैसे कि CHATGPT (पेपर स्वीकार करता है) संभावित रूप से इस कार्य में बेहतर परिणाम प्रदान कर सकता है, हमारे अधिकांश लोगों के लिए साहित्य तर्क (और विशेष रूप से शौकवादी और VFX समुदायों के लिए) वास्तविक मूल्य है) स्थानीय कार्यान्वयन में नई सफलता को शामिल करने और विकसित करने की संभावना है; इसके विपरीत, सब कुछ वाणिज्यिक एपीआई प्रणाली के लिए निकासी, मनमानी कीमतों और सेंसरशिप नीतियों के अधीन है, जो उपयोगकर्ता की जरूरतों और जिम्मेदारियों की तुलना में कंपनी की कॉर्पोरेट चिंताओं को प्रतिबिंबित करने की संभावना है।
नए पेपर का शीर्षक है उदासी से न लड़ें, इसका उपयोग करें: परमाणु तथ्यों पर एनएलआई का उपयोग करके छवि वास्तविकता।। कार्य में एक GitHB पृष्ठ वाला एक पृष्ठ है।
तरीका
लेखक इज़राइली/यूएस हॉप्स पीएस का उपयोग करते हैं! परियोजना के लिए डेटासेट:

असंभव छवियों के उदाहरण! डेटासेट। यह उल्लेखनीय है कि ये चित्र तर्कसंगत तत्वों को कैसे जोड़ते हैं, और इन असंगत पहलुओं के आधार पर उनकी विसंगतियों की गणना की जानी चाहिए। स्रोत: https://whoops-benchmark.github.io/
डेटासेट में 500 कृत्रिम चित्र और 10,874 एनोटेशन होते हैं, विशेष रूप से एआई मॉडल के तर्क और रचनात्मक समझ का परीक्षण करने के लिए डिज़ाइन किया गया है। यह टेक्स्ट-टू-इमेज सिस्टम जैसे कि मिडजर्नी और डीएल एल-ई सीरीज-उत्पादक मुश्किल या असंभव विचारों के माध्यम से चुनौतीपूर्ण छवियों का उत्पादन करने के लिए सौंपे गए डिजाइनरों के सहयोग से बनाया गया था, सावधानीपूर्वक पकड़ने के लिए:

Arrofs से अधिक उदाहरण! डेटासेट। स्रोत: https://huggingface.co/datasets/nlphuji/whoops
नया दृष्टिकोण तीन चरणों में काम करता है: सबसे पहले, LVLM (विशेष रूप से llava-V 1.6-misthalary-7b) को कई सरल कथनों-कॉल किए गए ‘परमाणु तथ्यों का निर्माण करने के लिए कहा जाता है। एक छवि का विवरण। इन कथनों को विभिन्न बीम खोज का उपयोग करके उत्पादित किया जाता है, जो आउटपुट में परिवर्तन सुनिश्चित करता है।

विभिन्न बीम का पता लगाने में विविधताएं- ug, ganted उद्देश्य के लिए izing को ptimizing द्वारा tion ption विकल्पों में से बेहतर उत्पादन करती है। स्रोत: https://arxiv.org/pdf/1610.02424
अगला, प्रत्येक कथन एक प्राकृतिक भाषा पूर्वानुमान मॉडल का उपयोग करके एक दूसरे के बयान की तुलना करता है, जो प्रतिबिंबित स्कोर प्रदान करता है कि क्या यह एक जोड़ी, विरोधाभासी या एक दूसरे के प्रति तटस्थ है।
एक विरोधाभासी छवि उदासी या अवास्तविक तत्वों को इंगित करती है:

जांच पाइपलाइन के लिए स्किमा।
अंत में, विधि इन युग्मित एनएलआई स्कोर को एक एकल ‘वास्तविकता स्कोर’ में एकीकृत करती है जो उत्पादित बयानों की समग्र स्थिरता को प्रमाणित करती है।
शोधकर्ताओं ने विभिन्न समेकन विधियों का आविष्कार किया, एक क्लस्टरिंग-आधारित दृष्टिकोण के सर्वश्रेष्ठ प्रदर्शन के साथ। लेखकों ने व्यक्तिगत एनएलआई स्कोर को दो समूहों में अलग करने के लिए के-साधन क्लस्टरिंग एल्गोरिथ्म को लागू किया, और फिर निचले-मूल्य वाले क्लस्टर के सेंट्रोइड को अंतिम मीट्रिक के रूप में चुना गया।
दो समूहों का उपयोग सीधे वर्गीकरण कार्य की द्विआधारी प्रकृति के साथ समायोजित करता है, अर्थात्, वास्तविकता को अवास्तविक छवियों से अलग करना। तर्क समग्र के सबसे कम स्कोर को चुनने जैसा है; हालांकि, एकल आउटलर के आधार पर, क्लस्टरिंग मीट्रिक कई तथ्यों के लिए औसत विरोधाभास की अनुमति देता है।
आंकड़े
शोधकर्ताओं ने अपने सिस्टम का परीक्षण किया! बेसलाइन बेंचमार्क, घूर्णन परीक्षण विभाजन (यानी, क्रॉस-सत्यापन) का उपयोग करके। स्प्लिट्स ने 2 फ्लांट 5-एक्सएल और ब्लिप 2 फ्लांट 5-एक्सएक्सएल, और ब्लिप 2 फ्लांट 5-एक्सएक्सएल (यानी, अतिरिक्त प्रशिक्षण के बिना) को शून्य-शॉट टीओटी प्रारूप में ब्लिप किया था।
इंस्ट्रक्शन-स्ट्राइकिंग बेसलाइन के लिए, लेखकों ने इस वाक्य के साथ LVLMS से पूछा ‘क्या यह असामान्य है? कृपया एक छोटे से वाक्य के साथ जल्द ही समझाएं ‘जो पिछले अनुसंधान अवास्तविक छवियों को खोजने के लिए प्रभावी लग रहा था।
मूल्यांकन किए गए मॉडल 1.6 मिस्टल 7 बी, 13 बी लालवा 1.6 डब्ल्यूक्यू, और दो आकार (7/13 बिलियन आयाम) निर्देशात्मक थे।
परीक्षण प्रक्रिया 102 जोड़े वास्तविक और अवास्तविक (‘विषम’) छवियों पर केंद्रित थे। प्रत्येक जोड़ी में एक सामान्य छवि और एक कॉमन्सेंस-डिफाइंग समकक्ष शामिल थे।
तीन मानव ओटी ने छवियों को लेबल किया, जो 92%की आम सहमति तक पहुंच गया, जो ‘विचित्रता’ का गठन करने पर मजबूत मानव अनुबंध दिखा रहा है। मूल्यांकन विधियों की सटीकता को वास्तविक और अवास्तविक छवियों के बीच ठीक से अंतर करने की उनकी क्षमता से मापा गया था।
सिस्टम का मूल्यांकन तीन-गुना क्रॉस-सत्यापन का उपयोग करके किया गया था, जो निश्चित बीजों के साथ बेतरतीब ढंग से फेरबदल करता है। प्रशिक्षण के दौरान, लेखक प्रवेश स्कोर (तार्किक रूप से सहमत बयान) और कंट्रास्ट स्कोर (बयान जो तार्किक रूप से संघर्ष कर रहे हैं) के लिए वजन को समायोजित करते हैं, जबकि ‘तटस्थ’ स्कोर शून्य पर तय किए गए थे। अंतिम सटीकता को सभी परीक्षण विभाजन का औसत माना जाता था।

सटीकता द्वारा मापा गया पांच उत्पन्न तथ्यों के एक सबसेट पर विभिन्न एनएलआई मॉडल और समेकन विधियों की तुलना।
ऊपर दिखाए गए प्रारंभिक परिणामों के बारे में, कागज बताता है:
‘(‘ क्लस्ट ‘विधि सबसे अच्छे प्रदर्शन में से एक के रूप में। यह इंगित करता है कि सभी विपरीत स्कोर का समेकन केवल चरम मूल्यों पर ध्यान केंद्रित करने के बजाय महत्वपूर्ण है। इसके अलावा, सबसे बड़ा एनएलआई मॉडल (एनएलआई-डबेर्टा-वी 3-लार्ज) सभी को सभी समेकन विधियों के लिए सभी को धक्का देता है, यह सुझाव देता है कि यह अधिक प्रभावी रूप से निबंध को प्राप्त करता है। “
लेखकों ने पाया कि सबसे अच्छा वजन लगातार प्रवृत्ति के अनुकूल है, यह दिखाते हुए कि विरोधाभास अवास्तविक छवियों को अलग करने के लिए अधिक जानकारीपूर्ण हैं। उनकी विधि ने अन्य सभी शून्य-शॉट टी विधि का परीक्षण किया, जो ठीक-ठाक-ट्यून ब्लिप 2 मॉडल के संचालन के निकट से परीक्षण किया गया:

विभिन्न दृष्टिकोणों के उफ़ प्रदर्शन! बेंचमार्क। फाइन-ट्यून (एफटी) तरीके शीर्ष पर दिखाई देते हैं, जबकि शून्य-शॉट टी (जेडएस) विधियां नीचे सूचीबद्ध हैं। मॉडल का आकार मापदंडों की संख्या को इंगित करता है, और सटीकता मूल्यांकन का उपयोग मीट्रिक के रूप में किया जाता है।
उन्होंने यह भी नोट किया, कुछ अप्रत्याशित रूप से, एक ही संकेत ने दिए गए तुलनात्मक लचीले मॉडल की तुलना में बेहतर प्रदर्शन किया। GPT-4 ON की सर्वश्रेष्ठ सटीकता को पहचानते समय, पेपर व्यावहारिक, खुले स्रोत समाधान दिखाने के लिए लेखकों के चयन पर जोर देता है, और ऐसा लगता है कि, एक नैदानिक उपकरण के रूप में, भ्रम का शोषण करने में नवाचार का स्पष्ट रूप से दावा कर सकता है।
अंत
हालांकि, लेखक 2024 के फथस्कोर आउटिंग के लिए अपने परियोजना ऋण को स्वीकार करते हैं, जो डलास विश्वविद्यालय और जोन्स हॉपकिंस विश्वविद्यालय में टेक्सास विश्वविद्यालय के बीच एक सहयोग है।

FathScore का मूल्यांकन कैसे करता है, इसकी तस्वीर। सबसे पहले, वर्णनात्मक बयानों की पहचान LVLM- जनित उत्तर के भीतर की जाती है। इसके बाद, इन बयानों को व्यक्तिगत परमाणु तथ्यों में तोड़ दिया गया है। अंत में, परमाणु तथ्यों की तुलना उनकी सटीकता का परीक्षण करने के लिए इनपुट छवि से की जाती है। रेखांकित पाठ उद्देश्य वर्णनात्मक सामग्री पर प्रकाश डालता है, जबकि नीला पाठ भ्रम संबंधी बयानों को इंगित करता है, जिससे फेथस्कोर को तथ्यात्मक शुद्धता की व्याख्या के लिए मानदंड प्रदान करने की अनुमति मिलती है। स्रोत: https://arxiv.org/pdf/2311.01477
FalhyScore छवि सामग्री के खिलाफ प्रासंगिकता की जांच करके LVLM- जनित विवरणों की वफादारी को मापता है, जबकि नए पेपर के तरीके स्पष्ट रूप से LVLM का उपयोग प्राकृतिक भाषा के अनुमान का उपयोग करके उत्पन्न तथ्यों के विपरीत अवास्तविक छवियों को खोजने के लिए करते हैं।
नया कार्य, स्वाभाविक रूप से, वर्तमान भाषा मॉडल की विचित्रता पर निर्भर करता है, और भ्रम की उनकी प्रकृति पर है। यदि मॉडल विकास को कभी भी पूरी तरह से गैर-परंपरात्मक मॉडल नहीं लाना चाहिए, तो नए काम के सामान्य सिद्धांतों को अब लागू नहीं किया जाएगा। हालांकि, यह एक चुनौतीपूर्ण संभावना है।
पहला मंगलवार, 25 मार्च, 2025 प्रकाशित