नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें
Google का नवीनतम ओपन सोर्स AI मॉडल GEMMA 3 आज वर्णमाला सहायक की एकमात्र प्रमुख खबर नहीं है।
नहीं, वास्तव में, स्पॉटलाइट को Google के GEMINI 2.0 फ्लैश द्वारा चुराया जा सकता है, जो Google AI स्टूडियो उपयोगकर्ताओं और Google के मिथुन एपीआई द्वारा मुफ्त में उपलब्ध एक नया प्रयोगात्मक मॉडल है।
यह पहली बार यूएस लार्ज टेक कंपनी ने मल्टीमॉडल इमेज जेनरेशन को सीधे एक मॉडल के भीतर ग्राहकों को भेजा है। अधिकांश अन्य एआई इमेज जेनरेशन टूल्स मॉडल डेल्स (इमेज स्पेशल) फैल रहे थे, जो बड़े भाषा मॉडल डेल्ट्स (एलएलएम) से जुड़े थे, जिन्हें उपयोगकर्ता को टेक्स्ट प्रॉम्प्ट में मांगी गई छवि को प्राप्त करने के लिए दो मॉडलों के बीच कुछ व्याख्या की आवश्यकता थी।
इसके विपरीत, मिथुन 2.0 फ्लैश मूल रूप से उसी मॉडल के भीतर छवियों का उत्पादन कर सकता है जो उपयोगकर्ता पाठ पूछता है, सैद्धांतिक रूप से अधिक सटीकता और अधिक क्षमताओं की अनुमति देता है – और प्रारंभिक संकेत पूरी तरह से सच हैं।
GEMINI 2.0 फ्लैश, पहले दिसंबर 2024 में अनावरण किया गया था, लेकिन मूल छवि उत्पादन क्षमता उपयोगकर्ताओं के लिए घूमती है, मल्टीमॉडल इनपुट, तर्क और प्राकृतिक भाषा की समझ की समझ, जो पाठ के साथ -साथ छवियों का उत्पादन करती है।
नए उपलब्ध प्रायोगिक संस्करण, GEMINI-2.0-FLASH-EXP, डेवलपर्स को चित्र बनाने, संचार द्वारा छवियों में सुधार करने और दुनिया के Jnowledge के आधार पर विस्तृत दृश्य उत्पन्न करने में सक्षम बनाता है।
मिथुन 2.0 फ्लैश एआई-जनित चित्र कैसे हैं
आज के डेवलपर-फेस ब्लॉग पोस्ट में, Google ने कई प्रमुख क्षमताएं प्रकाशित की हैं मिथुन 2.0 फ्लैश मूल छवि पीढ़ी:
• पाठ और छवि कहानी: डेवलपर्स सचित्र कहानियों को बनाने के लिए मिथुन 2.0 फ्लैश का उपयोग कर सकते हैं जो पात्रों और सेटिंग्स में स्थिरता बनाए रखते हैं। मॉडल भी प्रतिक्रिया का जवाब देता है, जिससे उपयोगकर्ता कहानी को समायोजित करने या कला शैली को बदलने की अनुमति देते हैं।
• वार्तालाप छवि संपादित करें: एआई समर्थन करता है बहुवचनयही है, उपयोगकर्ता प्राकृतिक भाषा संकेतों के माध्यम से निर्देश देकर छवि को दोहरा सकते हैं। यह सुविधा वास्तविक समय सहयोग और रचनात्मक शोध को सक्षम बनाती है।
• विश्व jnowledge -based छवि पीढ़ी: कई अन्य छवि पीढ़ी मॉडल के विपरीत, मिथुन 2.0 फ्लैश अधिक संदर्भ संबंधित छवियों के उत्पादन के लिए व्यापक तर्क क्षमताओं का लाभ देता है। उदाहरण के लिए, यह विस्तृत दृश्यों के साथ व्यंजनों की व्याख्या कर सकता है जो वास्तविक दुनिया की सामग्री और खाना पकाने के तरीकों के साथ व्यवस्थित करते हैं।
• बेहतर पाठ प्रतिपादन: कई एआई छवि मॉडल छवियों में सुपाठ्य पाठ बनाने के लिए संघर्ष करते हैं, अक्सर दुरुपयोग या विकृत वर्णों का उत्पादन करते हैं। Google कहता है कि GEMINI 2.0 फ्लैश आउटपरफॉर्म प्रमुख प्रतियोगियों पाठ प्रतिपादन में, यह विशेष रूप से विज्ञापनों, सोशल मीडिया पोस्ट और निमंत्रण के लिए उपयोगी बनाता है।
प्रारंभिक उदाहरण अविश्वसनीय संभावनाएं और वादे दिखाते हैं
Google और कुछ AI पावर यूजर्स X नई छवि पीढ़ी के उदाहरणों को साझा करने के लिए और Jimney 2.0 फ्लैश प्रैक्टिकल द्वारा पेश किए गए संपादन क्षमताओं को साझा करें
Google डीपमाइंड शोधकर्ता रॉबर्ट रियाची ने दिखाया कि कैसे मॉडल पिक्सेल-आर्ट शैली में छवियों का उत्पादन कर सकता है और फिर पाठ संकेतों के आधार पर एक ही शैली में नया बना सकता है।


एआई न्यूज अकाउंट टेस्टिंग कैटलॉग न्यूज ने मिथुन 2.0 फ्लैश प्रैक्टिकल मल्टीमॉडल क्षमताओं के एक रोलआउट पर रिपोर्ट किया, यह देखते हुए कि Google इस सुविधा को तैनात करने के लिए पहली बड़ी प्रयोगशाला है।

उपयोगकर्ता @angisby_ka “एंजेल” एक आकर्षक उदाहरण में दिखाता है कि कैसे “चॉकलेट ड्रिज़ल ऐड रेन” सेकंड में क्रॉसेंट की मौजूदा छवि को बदल देता है – मॉडल और फॉरवर्ड द्वारा प्रदर्शित मिथुन 2.0 फ्लैश की तेज और सटीक छवि संपादन क्षमताएं।

YouTuber ने सैद्धांतिक रूप से बताया कि एक पूर्ण पुनर्जनन के बिना यह अतिरिक्त छवि संपादन कुछ एआई उद्योग की अपेक्षित है, जिसमें दिखाया गया है कि किसके 2.0 फ्लैश को बाकी छवि को संरक्षित करते हुए एक चरित्र का हाथ उठाने के लिए एक छवि को संपादित करने के लिए कहना आसान था।

पूर्व Google Ai Utuber Bilawal Sidhu ने दिखाया कि कैसे मॉडल ब्लैक-व्हाइट छवियों को रंग देता है, जो संभावित ऐतिहासिक आमवाती पुन: स्थापना की स्थापना या रचनात्मक विकास अनुप्रयोगों को दर्शाता है।

इन प्रारंभिक प्रतिक्रियाओं से संकेत मिलता है कि डेवलपर्स और एआई उत्साही मिथुन 2.0 फ्लैश को दोहराए जाने वाले डिजाइन, रचनात्मक कहानी और एआई असिस्टेड विजुअल अधिग्रहण के लिए एक बहुत ही लचीले उपकरण के रूप में दिखते हैं।
स्विफ्ट रोलआउट Openai के GPT-4O के साथ भी विरोधाभासी है, जिसने एक साल-दर-मई 2024 के बारे में मूल छवि पीढ़ी क्षमताओं का पूर्वावलोकन किया था, लेकिन फिर भी इस सुविधा ने सार्वजनिक रूप से पेश किया है-Google को मल्टीमॉडल एआई तैनाती का नेतृत्व करने का अवसर मिल सकता है।
उपयोगकर्ता @chatgpt 21 उर्फ ”क्रिस” एक्स पर केंद्रित है, ओपनईई इस मामले में है “लॉस (टी) वर्ष + लीड” जो अज्ञात कारणों के लिए इस क्षमता पर था। उपयोगकर्ता ने किसी भी OpenAI को टिप्पणी करने के लिए क्यों आमंत्रित किया।

मेरे अपने परीक्षणों ने पहलू अनुपात के आकार के साथ कुछ सीमाएं घोषित की – यह मुझे 1: 1 पर अटक गया, भले ही पाठ में इसे सही करने के लिए कहा गया हो – लेकिन यह एक छवि में अक्षरों को सेकंड में बदलने में सक्षम था।

जबकि मिथुन 2.0 फ्लैश की मूल छवि पीढ़ी के आसपास की अधिकांश चर्चा व्यक्तिगत उपयोगकर्ताओं और रचनात्मक अनुप्रयोगों पर केंद्रित है, उद्यम टीमों, डेवलपर्स और एस सॉफ्टवेयर फैटवेयर आर्किटेक्ट्स के लिए इसके सुझाव महत्वपूर्ण हैं।
एआई संचालित डिजाइन और पैमाने पर विपणन: विपणन टीमों और सामग्री निर्माताओं के लिए, मिथुन 2.0 फ्लैश पारंपरिक ग्राफिक डिजाइन वर्कफ़्लो के एक लागत-कुशल विकल्प के रूप में काम कर सकता है, ब्रांडेड सामग्री, विज्ञापनों और सोशल मीडिया विजुअल के निर्माण को स्वचालित करता है। यह छवियों में टेक्स्ट रेंडरिंग का समर्थन करता है, इसलिए यह विज्ञापन निर्माण, पैकेजिंग डिजाइन और प्रचार ग्राफिक्स को सुव्यवस्थित कर सकता है, मैनुअल अधिग्रहण पर निर्भरता को कम कर सकता है।
उन्नत डेवलपर टूल और एआई वर्कफ़्लो: सीटीओ, सीआईओ और एस सॉफ्टवेयर फैटवेयर इंजीनियरों के लिए, मूल छवि पीढ़ी अनुप्रयोगों और सेवाओं में एआई एकीकरण की सुविधा प्रदान कर सकती है। एक एकल मॉडल में पाठ और छवि आउटपुट को मिलाकर, मिथुन 2.0 फ्लैश डेवलपर्स बनाने के लिए:
- AI -Powered डिज़ाइन सहायक जो UI/UX मॉकअप या ऐप एसेट्स बनाते हैं।
- स्वचालित प्रलेखन उपकरण जो वास्तविक समय में अवधारणाओं की व्याख्या करते हैं।
- मीडिया और शिक्षा के लिए गतिशील, एआई-संचालित स्टोरीटेलिंग प्लेटफॉर्म।
मॉडल संचार छवि संपादन का भी समर्थन करता है, इसलिए टीमें एआई-संचालित इंटरफेस विकसित कर सकती हैं जहां उपयोगकर्ता प्राकृतिक संवाद द्वारा डिजाइन में सुधार करते हैं, गैर-तकनीकी उपयोगकर्ताओं के लिए बाधा को कम करते हैं।
AI- आधारित उत्पादकता सॉफ्टवेयर ftware के लिए नई संभावनाएं: एंटरप्राइज़ टीमों के लिए जो एआई -ऑपरेटिव उत्पादकता उपकरण बनाते हैं, मिथुन 2.0 फ्लैश एप्लिकेशन का समर्थन कर सकते हैं:
- एआई-निर्मित स्लाइड और विजुअल के साथ स्वचालित प्रस्तुति पीढ़ी।
- एआई-जनित इन्फोग्राफिक्स के साथ कानूनी और व्यावसायिक दस्तावेज़ ओटी संकेतन।
- E-CE MURSE विज़ुअलाइज़ेशन, विवरणों के आधार पर गतिशील रूप से उत्पाद मॉकअप का उत्पादन करता है।
इस क्षमता के साथ कैसे तैनात और प्रयोग करें
डेवलपर्स मिथुन एपीआई का उपयोग करके मिथुन 2.0 फ्लैश की छवि पीढ़ी क्षमताओं का परीक्षण शुरू कर सकते हैं। Google यह दिखाने के लिए एक नमूना एपीआई अनुरोध प्रदान करता है कि डेवलपर्स एक ही प्रतिक्रिया में पाठ और छवियों के साथ कहानियां कैसे उत्पन्न कर सकते हैं:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3D digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=("Text", "Image")
),
)
मिथुन 2.0 फ्लैश सचित्र सामग्री बनाने, एआई-समर्थन अनुप्रयोगों को डिजाइन करने और दृश्य कहानी कहने के साथ प्रयोग करने के लिए नए तरीके प्रदान करता है, एआई-संचालित छवि पीढ़ी को सुविधाजनक बनाता है।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
