इस ट्यूटोरियल में, हम सीखेंगे कि Google के Colab प्लेटफॉर्म, Salesforce के शक्तिशाली BLIP मॉडल का उपयोग करके एक सहज ज्ञान युक्त वेब इंटरफ़ेस के लिए एक इंटरैक्टिव मल्टीमॉडल इमेज-कैप पुशिंग ऐप और स्ट्रीमलाइन कैसे बनाया जाए। मल्टीमॉडल मॉडल डेल्स, जो छवि और पाठ प्रसंस्करण क्षमताओं को जोड़ती है, एआई ऐप में तेजी से महत्वपूर्ण हो गया है, जैसे कि छवि सी टियोन पुशिंग, दृश्य प्रश्नों के उत्तर और बहुत कुछ जैसे कार्यों को सक्षम करता है। यह चरण-दर-चरण गाइड एक साधारण सेटअप की गारंटी देता है, स्पष्ट रूप से सामान्य कठिनाइयों को संबोधित करता है, और, यहां तक कि व्यापक अनुभव के बिना, उन्नत एआई समाधानों को एकीकृत और तैनात करने का तरीका दिखाता है।
!pip install transformers torch torchvision streamlit Pillow pyngrok
पहले हम ट्रांसफॉर्मर, मशाल, मशाल, स्ट्रीमलाइट, पिलो, पिंकक्रोक, सभी आवश्यक आश्रितों को एक मल्टीमॉडल इमेज सी tion पुशिंग एप्लिकेशन बनाने के लिए स्थापित करते हैं। इनमें ट्रांसफॉर्मर (BLIP मॉडल के लिए), टार्च और टार्चविज़न (डीप लर्निंग एंड इमेज प्रोसेसिंग के लिए), स्ट्रीमलाइट (यूआई बनाने के लिए), पिलो (इमेज फाइल्स को संभालने के लिए) और पिंगरॉक (ऑनलाइन नलिन एप्लिकेशन को उजागर करने के लिए) शामिल हैं।
%%writefile app.py
import torch
from transformers import BlipProcessor, BlipForConditionalGeneration
import streamlit as st
from PIL import Image
device = "cuda" if torch.cuda.is_available() else "cpu"
@st.cache_resource
def load_model():
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to(device)
return processor, model
processor, model = load_model()
st.title("🖼️ Image Captioning with BLIP")
uploaded_file = st.file_uploader("Upload your image:", type=("jpg", "jpeg", "png"))
if uploaded_file is not None:
image = Image.open(uploaded_file).convert('RGB')
st.image(image, caption="Uploaded Image", use_column_width=True)
if st.button("Generate Caption"):
inputs = processor(image, return_tensors="pt").to(device)
outputs = model.generate(**inputs)
caption = processor.decode(outputs(0), skip_special_tokens=True)
st.markdown(f"### ✅ **Caption:** {caption}")
फिर हम एक ब्लिप मॉडल का उपयोग करके एक स्ट्रीम-आधारित मल्टीमॉडल इमेज कैप पुशिंग ऐप बनाते हैं। यह पहले ब्लिपप्रोसेसर को लोड करता है और एक गले के चेहरे के साथ ब्लिपफोरचैंडेशन को लोड करता है, जिससे मॉडल को छवियों को संसाधित करने और tions का उत्पादन करने की अनुमति मिलती है। एक अच्छी तरह से यूआई उपयोगकर्ताओं के लिए छवि को अपलोड करने में सक्षम बनाता है, इसे प्रदर्शित करता है, और एक tion ption का उत्पादन करने के लिए बटन पर क्लिक करता है। @St का उपयोग।
from pyngrok import ngrok
NGROK_TOKEN = "use your own NGROK token here"
ngrok.set_auth_token(NGROK_TOKEN)
public_url = ngrok.connect(8501)
print("🌐 Your Streamlit app is available at:", public_url)
# run streamlit app
!streamlit run app.py &>/dev/null &
अंत में, हमने Ngrok का उपयोग करके Google Colab में एक्सेस Xacible Streatight ऐप सेट किया है। यह निम्नलिखित करता है:
- एक सुरक्षित सुरंग बनाने के लिए अपने व्यक्तिगत टोकन (`ngrok_token`) का उपयोग करके Angrok को प्रमाणित करता है।
- `Ngrok.connect (8501) बाहरी URL पर पोर्ट` 8501 ‘पर चल रहे स्ट्रीमलाइट एप्लिकेशन को प्रकट करता है।
- एक सार्वजनिक URL प्रिंट करता है, जिसका उपयोग किसी भी ब्राउज़र में एप्लिकेशन को निष्पादित करने के लिए किया जा सकता है।
- पृष्ठभूमि में स्ट्रीमलाइट ऐप (`एप्लिकेशन पी) लॉन्च करता है।
यह विधि आपको अपनी छवि c tion पुशिंग ऐप से दूरस्थ रूप से संपर्क करने की अनुमति देती है, हालांकि Google Colab प्रत्यक्ष वेब होस्टिंग प्रदान नहीं करता है।
अंत में, हमने Salesforce के Blip and Streatight द्वारा संचालित मल्टीमॉडल इमेज कैप पुशिंग एप्लिकेशन को सफलतापूर्वक बनाया और समायोजित किया है, जिसे Google Colab वातावरण से Angrok द्वारा सुरक्षित रूप से होस्ट किया गया है। हाथ से व्यायाम से पता चलता है कि सभ्य मशीन लर्निंग मॉडल को उपयोगकर्ता के अनुकूल इंटरफ़ेस में कितनी आसानी से एकीकृत किया जा सकता है और मल्टीमॉडल अनुप्रयोगों का पता लगाने और अनुकूलित करने के लिए नींव प्रदान किया जा सकता है।
यहाँ है कोटिनी नोटबुक। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमसे जुड़ें टेलीग्राफिक मीडिया और लिंक्डइन जी.आर.सिर हिलाकर सहमति देना। हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।
पार्लेंट: LLMS (B ED) के साथ एक विश्वसनीय AI ग्राहक का सामना करना