युकी मित्सुफुजी के साथ साक्षात्कार: एआई छवि पीढ़ी में सुधार करें


युकी मित्सुफुजी सोनी एआई में मुख्य शोध है। युकी और उनकी टीम ने न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स (न्यूरिप्स 2024) पर एक हालिया सम्मेलन में दो पेपर प्रस्तुत किए। ये काम छवि पीढ़ी के विभिन्न पहलुओं का सामना करते हैं और हकदार हैं: जेनवरप: एक उपन्यास की एक छवि के साथ एक उपन्यास की राय के साथ सिमेंटिक-सेविंग जेनरेटिव वी पिंग रैपिंग और पगोडा: एक कम-रिज़ॉल्यूशन डिफ्यूजन शिक्षक से एक-चरण जनरेटर की प्रगतिशील विकास। हमने इस शोध के बारे में अधिक जानने के लिए युकी के साथ पकड़ा।

हम आपसे आज से शोध के दो टुकड़े पूछना चाहते हैं। क्या हम गनवरप पेपर से शुरू कर सकते हैं? क्या आप इस काम में केंद्रित समस्या को रेखांकित कर सकते हैं?

जिस समस्या को हम हल करने के लिए लक्ष्य करते हैं, उसे एक सिंगल-शॉट टोट उपन्यास दृश्य सिंथेसिस कहा जाता है, जहां आपके पास एक छवि है और उसी कैमरा कोण से उसी दृश्य की एक और छवि बनाना चाहता है। इस अंतरिक्ष में बहुत सारे काम किए गए हैं, लेकिन एक बड़ी चुनौती है: जब एक छवि कोण काफी भिन्न होता है, तो छवि की गुणवत्ता में काफी कमी आती है। हम एक नई छवि उत्पन्न करने में सक्षम होना चाहते हैं, साथ ही किसी दिए गए छवि के आधार पर गुणवत्ता में सुधार करना चाहते हैं, साथ ही साथ बहुत ही चुनौतीपूर्ण कोण परिवर्तन सेटिंग्स में भी।

आप इस समस्या को हल करने के बारे में कैसे गए – आपकी विधि क्या थी?

इस स्थान में मौजूदा काम मोनोक्यूलर गहराई की प्रवृत्ति का लाभ उठाते हैं, जिसका अर्थ है कि गहराई का अनुमान लगाने के लिए केवल एक छवि का उपयोग किया जाता है। यह गहराई हमें छवि को बदलने और कोण के अनुसार छवि को बदलने में सक्षम बनाती है – हम इसे “रैप” कहते हैं। बेशक, छवि में कुछ गन्दा भाग होंगे, और एक नए कोण से एक छवि बनाने के तरीके के बारे में मूल छवि से जानकारी गायब होगी। इसलिए, हमेशा दूसरा चरण होता है जहां दूसरा मॉड्यूल समायोजित क्षेत्र को इंटरपेल कर सकता है। इन दो चरणों के कारण, PPING रैपिंग में प्रस्तुत ज्यामितीय त्रुटियों को इस क्षेत्र में वर्तमान कार्य में प्रक्षेप चरण के लिए मुआवजा नहीं दिया जा सकता है।

हम इस समस्या को एक साथ सब कुछ फ्यूज करके हल करते हैं। हम दो-चरण दृष्टिकोण के लिए नहीं जाते हैं, लेकिन एक एकल प्रसार मॉडल में हम सभी इसे एक साथ करते हैं। छवि के सार्थक अर्थ को बनाए रखने के लिए, हमने एक और तंत्रिका नेटवर्क बनाया जो किसी दिए गए छवि के साथ -साथ मोनोकुलर डेप्थ जानकारी से शब्दार्थ जानकारी को ठीक कर सकता है। हम इसे मुख्य आधार प्रसार मॉडल में, एक क्रॉस-एलेशन तंत्र का उपयोग करके इंजेक्ट करते हैं। चूंकि वी पिंग का बलात्कार किया गया है और एक मॉडल में प्रक्षेपित किया गया है, और बाहर से इंजेक्ट की गई सिमेंटिक जानकारी को बहुत अच्छी तरह से पुनर्निर्माण किया जा सकता है, इसलिए हमने देखा कि समग्र गुणवत्ता में सुधार हुआ है। हमने FID और PSNR जैसे मैट्रिक्स का उपयोग करते हुए, छवि गुणवत्ता में व्यक्तिपरक और उद्देश्य दोनों में सुधार देखा।

क्या लोग GenVarp का उपयोग करके बनाई गई कुछ छवियों को देख सकते हैं?

हां, हमारे पास वास्तव में एक डेमो है, जिसमें दो भाग शामिल हैं। एक मूल छवि दिखाता है और दूसरा विभिन्न कोणों से v -ped चित्र दिखाता है।

पगोडा पेपर पर चलते हुए, यहां आप प्रसार मॉडल के कम्प्यूटेशन मॉडल की लागत को संबोधित कर रहे हैं? आप उस समस्या के बारे में कैसे गए?

रोकथाम मॉडल बहुत लोकप्रिय हैं, लेकिन वे जानते हैं कि वे प्रशिक्षण और अनुमान के लिए बहुत महंगे हैं। हम इस मुद्दे को पगोडा, हमारे मॉडल का प्रस्ताव करके संबोधित करते हैं जो प्रशिक्षण कार्यक्षमता और अनुमान दोनों को संबोधित करता है।

अनुमान दक्षता के बारे में बात करना आसान है, जो सीधे वेतन पीढ़ी की गति के साथ जोड़ती है। रोकथाम आमतौर पर अंतिम -जनित आउटपुट की ओर बहुत सारे दोहरावदार कदम उठाते हैं – हमारा लक्ष्य इन चरणों को छोड़ना था ताकि हम जल्दी से एक कदम में एक छवि उत्पन्न कर सकें। लोग इसे “वन-स्टेप पीढ़ी” या “वन-स्टेप स्प्रेड” कहते हैं। यह हमेशा एक कदम नहीं है; यह दो या तीन चरण हो सकते हैं, उदाहरण के लिए, “कुछ-चरण प्रसार”। मूल रूप से, लक्ष्य प्रसार की बाधा को हल करना है, जो एक समय लेने वाली, मल्टी-स्टेप eterative पीढ़ी विधि है।

प्रसार मॉडल में, उत्पादन उत्पादन आमतौर पर एक धीमी प्रक्रिया है, अंतिम परिणाम का उत्पादन करने के लिए कई दोहरावदार चरणों की आवश्यकता होती है। इन मॉडलों को आगे बढ़ाने की मुख्य प्रवृत्ति “छात्र मॉडल” द्वारा प्रशिक्षित की जाती है जो पूर्व-प्रशिक्षित प्रसार मॉडल से Junoweltge को समाप्त करती है। यह एक त्वरित वेतन सामान्य के लिए अनुमति देता है – कभी -कभी केवल एक चरण में केवल एक छवि पैदा करता है। इसे अक्सर डिस्टिल्ड डिफ्यूजन मॉडल के रूप में जाना जाता है। आसवन का मतलब है कि शिक्षक (प्रसार मॉडल) प्रदान किया जाता है, हम इस जानकारी का उपयोग एक और एक-चरण कुशल मॉडल को प्रशिक्षित करने के लिए करते हैं। हम इसे आसवन कहते हैं क्योंकि हम मूल मॉडल से जानकारी को दूर कर सकते हैं, जिसमें अच्छी छवियों के उत्पादन के बारे में Junowledge की एक विस्तृत श्रृंखला है।

हालांकि, क्लासिक डिफ्यूजन मॉडल और उनके डिस्टिल्ड समकक्षों दोनों को आमतौर पर फिक्स्ड इमेज रिज़ॉल्यूशन के साथ जोड़ा जाता है। इसका मतलब यह है कि यदि हम एक उच्च आकार के डिस्टिल्ड डिफ्यूजन मॉडल चाहते हैं जो एक-चरण वेतन पीढ़ी में सक्षम है, तो हमें प्रसार मॉडल को फिर से व्यवस्थित करने और फिर इसे वांछित संकल्प पर चुकाने की आवश्यकता है।

यह प्रशिक्षण की पूरी पाइपलाइन बनाता है और पीढ़ी को बहुत उबाऊ बनाता है। हर बार उच्च रिज़ॉल्यूशन की आवश्यकता होती है, हमें शुरुआत से फैलने वाले मॉडल को फिर से व्यवस्थित करना होगा और फिर से आसवन प्रक्रिया के माध्यम से जाना होगा, वर्कफ़्लो में महत्वपूर्ण जटिलता और समय को जोड़ना होगा।

पगोडा की विशिष्टता यह है कि हम एक प्रणाली के विभिन्न रिज़ॉल्यूशन मॉडल को प्रशिक्षित करते हैं, जो इसे एक-चरण वेतन पीढ़ी को प्राप्त करने की अनुमति देता है, जिससे वर्कफ़्लो अधिक कुशल हो जाता है।

उदाहरण के लिए, यदि हम 128 × 128 की छवियों के लिए एक मॉडल को डिस्टिल करना चाहते हैं, तो हम इसे कर सकते हैं। लेकिन अगर हम इसे एक और पैमाने के लिए करना चाहते हैं, तो 256 × 256 कहते हैं, तो हमारे पास 256 × 256 पर एक शिक्षक ट्रेन होनी चाहिए। यदि हम इसे उच्च संकल्पों के लिए विस्तारित करना चाहते हैं, तो हमें कई बार ऐसा करने की आवश्यकता है। यह बहुत महंगा हो सकता है, इसलिए इससे बचने के लिए, हम प्रगतिशील बढ़ते प्रशिक्षण के विचार का उपयोग करते हैं, जिसका पहले से ही एंटी -गेनरिक एंटी -गेनिक नेटवर्क (जीएनएस) के क्षेत्र में अध्ययन किया जा चुका है, लेकिन फैलने वाले स्थान में इतना नहीं है । इस विचार को देखते हुए, 64 × 64 पर प्रशिक्षित एक शिक्षक प्रसार मॉडल को देखते हुए, हम जानकारी को डिस्टिल कर सकते हैं और किसी भी संकल्प के लिए एक-चरण मॉडल को प्रशिक्षित कर सकते हैं। कई संकल्प मामलों के लिए हम पगोडा का उपयोग करके परिष्कृत प्रदर्शन प्राप्त कर सकते हैं।

क्या आप अपनी विधि और मानक प्रसार मॉडल के बीच गणना लागत में अंतर का एक मोटा विचार दे सकते हैं? आप किस तरह की बचत करते हैं?

यह विचार बहुत सरल है – हम सिर्फ दोहराव वाले चरणों को अनदेखा करते हैं। यह आपके द्वारा उपयोग किए जाने वाले प्रसार मॉडल पर बहुत निर्भर है, लेकिन अतीत में एक विशिष्ट मानक प्रसार मॉडल इतिहास लगभग 1000 चरणों का उपयोग करता है। और अब, आधुनिक, अच्छी तरह से अनुकूलन के लिए ptimise प्रसार मॉडल के लिए 79 चरणों की आवश्यकता होती है। हमारा मॉडल जो एक कदम पर नीचे जाता है, हम इसे सिद्धांत में लगभग 80 गुना तेजी से देखते हैं। बेशक, यह सब इस बात पर निर्भर करता है कि आप सिस्टम को कैसे लागू करते हैं, और यदि चिप्स पर एक समानांतर विधि है, तो लोग इसे अवशोषित कर सकते हैं।

क्या आप किसी भी परियोजना के बारे में जोड़ना चाहते हैं?

आखिरकार, हम वास्तविक समय के वेतन पीढ़ी को प्राप्त करना चाहते हैं, और न केवल इस वेतन पीढ़ी को छवियों तक सीमित करते हैं। रियल-टाइम साउंड जेनरेशन एक ऐसा क्षेत्र है जिसे हम देख रहे हैं।

इसके अलावा, जैसा कि आप जेनवरप के एनीमेशन डेमो में देख सकते हैं, छवियां तेजी से बदलती हैं, जिससे यह एनीमेशन की तरह दिखता है। हालांकि, डेमो कई छवियों के साथ बनाया गया था, जो एक ऑफ़लाइन फ्रेम के साथ महंगे प्रसार मॉडल बनाते हैं। यदि हम एक उच्च गति पीढ़ी प्राप्त कर सकते हैं, तो पगोडा के साथ कहें, तो सिद्धांत रूप में, हम मक्खी के किसी भी कोने से छवियां बना सकते हैं।

और अधिक जानें:

  • Genvarp: एक अर्थ-संरक्षण जनरेटिव वी पिंग रिंग के साथ उपन्यास के विचारों की एक छवि, जुनियॉन्ग कंपनी, काज़ुमी फुकुदा, तकाशी शिबुया, ताकुआ नरहाइरा, नाओकी मुरता, शौकांग हू, किन-हसिन ला, सिंग्रीओंग किम, युकी मित्सुफुजी।
  • उत्कीर्णन डेमो
  • पगोडा: एक कम-रिज़ॉल्यूशन प्रसार शिक्षक से एक-चरण जनरेटर की प्रगतिशील विकास, डोंगजुन किम, आईसी-हसीन लाई, वी-हसियांग लियाओ, युहाता ताकडा, नाओकी मुराता, तोशिमित्सु युसका, युकी मित्सुफुजी, स्टेफानो एर्मन।

युकी मित्सुफुजी के बारे में

युकी मित्सुफुजी सोनी एआई में मुख्य शोध है। सोनी एआई में अपनी भूमिका के अलावा, वह सोनी ग्रुप कॉरपोरेशन के लिए एक प्रतिष्ठित इंजीनियर और सोनी आर एंड डी के लिए क्रिएटिव एआई लैब के प्रमुख हैं। युकी के पास टोक्यो विश्वविद्यालय से सूचना और प्रौद्योगिकी में पीएचडी है। उनके ग्राउंडब्रेकिंग काम ने उन्हें फाउंडेशन म्यूजिक और साउंड फंक्शन में एक नेता बना दिया है, जैसे कि साउंड सेपरेशन और अन्य जनरेटिंग मॉडल देरी जो संगीत, ध्वनि और अन्य तरीकों पर लागू हो सकती है।

टैग जीएस: न्यूरिप्स, न्यूरिप्स 2024


लुसी स्मिथ AIHUB के लिए एक वरिष्ठ प्रबंध संपादक हैं।

Scroll to Top