इस ट्यूटोरियल में, हम ओपन-सन टूल का उपयोग करके एक कुशल कानूनी एआई चैटबॉट बनाएंगे। यह बिग साइंस/T0P LLM, कशीदाकारी चेहरे ट्रांसफॉर्मर और पिटोरच का उपयोग करके एक चैटबॉट बनाने के लिए एक चरण-दर-चरण गाइड प्रदान करता है। हम आपको मॉडल की स्थापना देंगे, पिट्रिच का उपयोग करके ऑप्टिम को पिटाई करने के लिए, और एक कुशल और सुलभ एआई-संचालित कानूनी सहायक सुनिश्चित करेंगे।
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_name = "bigscience/T0pp" # Open-source and available
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
सबसे पहले, हम ओपन सोर्स एलएलएम, बिग साइंस/T0PP को लोड करते हैं, जो कि फेस ट्रांसफॉर्मर का उपयोग करते हैं। यह पाठ प्रीप्रोसेसिंग के लिए एक टोकनलाइज़र शुरू करता है और ओम टोमोडेल्फोर्स्क्व 2 सेकंड को लोड करता है, एक मॉडल को पाठ -जनरेशन कार्यों जैसे कानूनी प्रश्नों के उत्तर देने में सक्षम बनाता है।
import spacy
import re
nlp = spacy.load("en_core_web_sm")
def preprocess_legal_text(text):
text = text.lower()
text = re.sub(r'\s+', ' ', text) # Remove extra spaces
text = re.sub(r'(^a-zA-Z0-9\s)', '', text) # Remove special characters
doc = nlp(text)
tokens = (token.lemma_ for token in doc if not token.is_stop) # Lemmatization
return " ".join(tokens)
sample_text = "The contract is valid for 5 years, terminating on December 31, 2025."
print(preprocess_legal_text(sample_text))
उसके बाद, हम एनएलपी कार्यों के लिए क्लीनर और अधिक संरचित इनपुट सुनिश्चित करने के लिए स्पेसी और नियमित अभिव्यक्तियों का उपयोग करके कानूनी पाठ को पूर्व -निर्धारित करते हैं। यह पहले पाठ को एक लोअरकेस में बदल देता है, Ragex का उपयोग करके अतिरिक्त रिक्त स्थान और विशेष वर्णों को हटा देता है, और फिर स्पेसी के एनएलपी पाइपलाइन का उपयोग करके पाठ को टोकन और लामोमेटाइज़ करता है। इसके अलावा, यह केवल शब्दों को बनाए रखने के लिए शब्दों को रोकता है, जिससे यह एआई एप्लिकेशन में कानूनी पाठ प्रसंस्करण के लिए आदर्श है। क्लियर की गई टेक्स्ट मशीन भाषा के मॉडल जैसे सीखने और भाषा के मॉडल जैसे बिग साइंस/T0PP, कानूनी चैटबॉट उत्तरों में सटीकता में सुधार के लिए अधिक कुशल है।
def extract_legal_entities(text):
doc = nlp(text)
entities = ((ent.text, ent.label_) for ent in doc.ents)
return entities
sample_text = "Apple Inc. signed a contract with Microsoft on June 15, 2023."
print(extract_legal_entities(sample_text))
यहाँ, हम स्पेसी की नामित इकाई मान्यता (NER) क्षमताओं का उपयोग करके पाठ से एक कानूनी इकाई का आयोजन करते हैं। कार्य Spacey के NLP मॉडल के साथ इनपुट पाठ को संसाधित करता है, जो निकायों, दिनांक और कानूनी स्थितियों जैसे प्रमुख संस्थाओं की पहचान करता है। यह टुपल्स को सूचीबद्ध करता है, प्रत्येक में एक मान्यता प्राप्त इकाई और उसकी श्रेणी (जैसे, संगठन, दिनांक या अवधि सापेक्ष) शामिल हैं।
import faiss
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer
embedding_model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
embedding_tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
def embed_text(text):
inputs = embedding_tokenizer(text, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
output = embedding_model(**inputs)
embedding = output.last_hidden_state.mean(dim=1).squeeze().cpu().numpy() # Ensure 1D vector
return embedding
legal_docs = (
"A contract is legally binding if signed by both parties.",
"An NDA prevents disclosure of confidential information.",
"A non-compete agreement prohibits working for a competitor."
)
doc_embeddings = np.array((embed_text(doc) for doc in legal_docs))
print("Embeddings Shape:", doc_embeddings.shape) # Should be (num_samples, embedding_dim)
index = faiss.IndexFlatL2(doc_embeddings.shape(1)) # Dimension should match embedding size
index.add(doc_embeddings)
query = "What happens if I break an NDA?"
query_embedding = embed_text(query).reshape(1, -1) # Reshape for FAISS
_, retrieved_indices = index.search(query_embedding, 1)
print(f"Best matching legal text: {legal_docs(retrieved_indices(0)(0))}")
उपरोक्त कोड के साथ, हम कुशल शब्दार्थ खोज के लिए FISS का उपयोग करके एक कानूनी दस्तावेज़ रिकवरी सिस्टम बनाते हैं। यह पहले पाठ के संख्यात्मक प्रतिनिधित्व का उत्पादन करने के लिए कशीदाकारी चेहरे से मिनिलम एम्बेडिंग मॉडल को लोड करता है। एम्बेडेड_टेक्स्ट फ़ंक्शन मिनिलम का उपयोग करके संदर्भित एम्बेडिंग की गणना करके कानूनी दस्तावेजों और प्रश्नों को संसाधित करता है। इन एम्बेडिंग को फिस वेक्टर इंडेक्स में संग्रहीत किया जाता है, जो तेजी से समानता का पता लगाने की अनुमति देता है।
def legal_chatbot(query):
inputs = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
output = model.generate(**inputs, max_length=100)
return tokenizer.decode(output(0), skip_special_tokens=True)
query = "What happens if I break an NDA?"
print(legal_chatbot(query))
अंत में, हम एक पूर्व-प्रशिक्षित भाषा मॉडल का उपयोग करके कानूनी सवालों के जवाब देने के लिए एक कानूनी एआई चैटबॉट को परिभाषित करते हैं। Legal_chatbot फ़ंक्शन उपयोगकर्ता क्वेरी, इसे एक टोकनर का उपयोग करके संसाधित करना, और मॉडल के साथ प्रतिक्रिया का उत्पादन करना। प्रतिक्रिया के बाद कोई विशेष टोकन एक पठनीय पाठ में डिकोड किया जाता है, हटाता है। क्या होता है जब मैं एक क्वेरी की तरह एनडीए को तोड़ता हूं? ” इनपुट, चैटबॉट एआई-जनित कानूनी प्रतिक्रिया से संबंधित प्रदान करता है।
निष्कर्ष में, हमने दिखाया है कि कैसे एक शक्तिशाली और स्केलेबल कानूनी एआई चैटबॉट को ओपन-कैलाइफ्लोवर संसाधनों का उपयोग करके, बिग साइंस/T0p एलएलएम को गले लगाते हुए, फेस ट्रांसफॉर्मर और पिट्रेश को गले लगाते हुए। यह परियोजना विश्वसनीय एआई -पावर वाले कानूनी उपकरण बनाने के लिए एक ठोस आधार है, जिससे कानूनी सहायता अधिक सुलभ और स्वचालित हो जाती है।
यहाँ है कोटिनी नोटबुक उपरोक्त परियोजना के लिए। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमसे जुड़ें टेलीग्राफिक मीडिया और लिंक्डइन जी.आर.सिर हिलाकर सहमति देना। हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।
। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए
ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।
