कानूनी एआई चटब ओटी टी: बिग साइंस/टी 0 पी एलएलएम, ओपन-सर्विस एनएलपी मॉडल, स्ट्रीमलाइट, पिटोरच और कशीदाकारी चेहरे ट्रांसफॉर्मर का उपयोग करके एक चरण-दर-चरण गाइड

February 24, 2025

Dr. Ashish V

इस ट्यूटोरियल में, हम ओपन-सन टूल का उपयोग करके एक कुशल कानूनी एआई चैटबॉट बनाएंगे। यह बिग साइंस/T0P LLM, कशीदाकारी चेहरे ट्रांसफॉर्मर और पिटोरच का उपयोग करके एक चैटबॉट बनाने के लिए एक चरण-दर-चरण गाइड प्रदान करता है। हम आपको मॉडल की स्थापना देंगे, पिट्रिच का उपयोग करके ऑप्टिम को पिटाई करने के लिए, और एक कुशल और सुलभ एआई-संचालित कानूनी सहायक सुनिश्चित करेंगे।

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer


model_name = "bigscience/T0pp"  # Open-source and available
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

सबसे पहले, हम ओपन सोर्स एलएलएम, बिग साइंस/T0PP को लोड करते हैं, जो कि फेस ट्रांसफॉर्मर का उपयोग करते हैं। यह पाठ प्रीप्रोसेसिंग के लिए एक टोकनलाइज़र शुरू करता है और ओम टोमोडेल्फोर्स्क्व 2 सेकंड को लोड करता है, एक मॉडल को पाठ -जनरेशन कार्यों जैसे कानूनी प्रश्नों के उत्तर देने में सक्षम बनाता है।

import spacy
import re


nlp = spacy.load("en_core_web_sm")


def preprocess_legal_text(text):
    text = text.lower()
    text = re.sub(r'\s+', ' ', text)  # Remove extra spaces
    text = re.sub(r'(^a-zA-Z0-9\s)', '', text)  # Remove special characters
    doc = nlp(text)
    tokens = (token.lemma_ for token in doc if not token.is_stop)  # Lemmatization
    return " ".join(tokens)


sample_text = "The contract is valid for 5 years, terminating on December 31, 2025."
print(preprocess_legal_text(sample_text))

उसके बाद, हम एनएलपी कार्यों के लिए क्लीनर और अधिक संरचित इनपुट सुनिश्चित करने के लिए स्पेसी और नियमित अभिव्यक्तियों का उपयोग करके कानूनी पाठ को पूर्व -निर्धारित करते हैं। यह पहले पाठ को एक लोअरकेस में बदल देता है, Ragex का उपयोग करके अतिरिक्त रिक्त स्थान और विशेष वर्णों को हटा देता है, और फिर स्पेसी के एनएलपी पाइपलाइन का उपयोग करके पाठ को टोकन और लामोमेटाइज़ करता है। इसके अलावा, यह केवल शब्दों को बनाए रखने के लिए शब्दों को रोकता है, जिससे यह एआई एप्लिकेशन में कानूनी पाठ प्रसंस्करण के लिए आदर्श है। क्लियर की गई टेक्स्ट मशीन भाषा के मॉडल जैसे सीखने और भाषा के मॉडल जैसे बिग साइंस/T0PP, कानूनी चैटबॉट उत्तरों में सटीकता में सुधार के लिए अधिक कुशल है।

def extract_legal_entities(text):
    doc = nlp(text)
    entities = ((ent.text, ent.label_) for ent in doc.ents)
    return entities


sample_text = "Apple Inc. signed a contract with Microsoft on June 15, 2023."
print(extract_legal_entities(sample_text))

यहाँ, हम स्पेसी की नामित इकाई मान्यता (NER) क्षमताओं का उपयोग करके पाठ से एक कानूनी इकाई का आयोजन करते हैं। कार्य Spacey के NLP मॉडल के साथ इनपुट पाठ को संसाधित करता है, जो निकायों, दिनांक और कानूनी स्थितियों जैसे प्रमुख संस्थाओं की पहचान करता है। यह टुपल्स को सूचीबद्ध करता है, प्रत्येक में एक मान्यता प्राप्त इकाई और उसकी श्रेणी (जैसे, संगठन, दिनांक या अवधि सापेक्ष) शामिल हैं।

import faiss
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer


embedding_model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
embedding_tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")


def embed_text(text):
    inputs = embedding_tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        output = embedding_model(**inputs)
    embedding = output.last_hidden_state.mean(dim=1).squeeze().cpu().numpy()  # Ensure 1D vector
    return embedding


legal_docs = (
    "A contract is legally binding if signed by both parties.",
    "An NDA prevents disclosure of confidential information.",
    "A non-compete agreement prohibits working for a competitor."
)


doc_embeddings = np.array((embed_text(doc) for doc in legal_docs))


print("Embeddings Shape:", doc_embeddings.shape)  # Should be (num_samples, embedding_dim)


index = faiss.IndexFlatL2(doc_embeddings.shape(1))  # Dimension should match embedding size
index.add(doc_embeddings)


query = "What happens if I break an NDA?"
query_embedding = embed_text(query).reshape(1, -1)  # Reshape for FAISS
_, retrieved_indices = index.search(query_embedding, 1)


print(f"Best matching legal text: {legal_docs(retrieved_indices(0)(0))}")

उपरोक्त कोड के साथ, हम कुशल शब्दार्थ खोज के लिए FISS का उपयोग करके एक कानूनी दस्तावेज़ रिकवरी सिस्टम बनाते हैं। यह पहले पाठ के संख्यात्मक प्रतिनिधित्व का उत्पादन करने के लिए कशीदाकारी चेहरे से मिनिलम एम्बेडिंग मॉडल को लोड करता है। एम्बेडेड_टेक्स्ट फ़ंक्शन मिनिलम का उपयोग करके संदर्भित एम्बेडिंग की गणना करके कानूनी दस्तावेजों और प्रश्नों को संसाधित करता है। इन एम्बेडिंग को फिस वेक्टर इंडेक्स में संग्रहीत किया जाता है, जो तेजी से समानता का पता लगाने की अनुमति देता है।

def legal_chatbot(query):
    inputs = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
    output = model.generate(**inputs, max_length=100)
    return tokenizer.decode(output(0), skip_special_tokens=True)


query = "What happens if I break an NDA?"
print(legal_chatbot(query))

अंत में, हम एक पूर्व-प्रशिक्षित भाषा मॉडल का उपयोग करके कानूनी सवालों के जवाब देने के लिए एक कानूनी एआई चैटबॉट को परिभाषित करते हैं। Legal_chatbot फ़ंक्शन उपयोगकर्ता क्वेरी, इसे एक टोकनर का उपयोग करके संसाधित करना, और मॉडल के साथ प्रतिक्रिया का उत्पादन करना। प्रतिक्रिया के बाद कोई विशेष टोकन एक पठनीय पाठ में डिकोड किया जाता है, हटाता है। क्या होता है जब मैं एक क्वेरी की तरह एनडीए को तोड़ता हूं? ” इनपुट, चैटबॉट एआई-जनित कानूनी प्रतिक्रिया से संबंधित प्रदान करता है।

निष्कर्ष में, हमने दिखाया है कि कैसे एक शक्तिशाली और स्केलेबल कानूनी एआई चैटबॉट को ओपन-कैलाइफ्लोवर संसाधनों का उपयोग करके, बिग साइंस/T0p एलएलएम को गले लगाते हुए, फेस ट्रांसफॉर्मर और पिट्रेश को गले लगाते हुए। यह परियोजना विश्वसनीय एआई -पावर वाले कानूनी उपकरण बनाने के लिए एक ठोस आधार है, जिससे कानूनी सहायता अधिक सुलभ और स्वचालित हो जाती है।

यहाँ है कोटिनी नोटबुक उपरोक्त परियोजना के लिए। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमसे जुड़ें टेलीग्राफिक मीडिया और लिंक्डइन जी.आर.सिर हिलाकर सहमति देना। हमसे जुड़ने के लिए मत भूलना 80K+ एमएल सबमिटेड।

। अनुशंसित रीडिंग- एलजी एआई रिसर्च नेक्सस प्रकाशित करता है: एक उन्नत प्रणाली एआई एजेंट एआई सिस्टम और डेटा अनुपालन मानकों को एआई डेटासेट में कानूनी चिंताओं को खत्म करने के लिए

ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।

Dr. Ashish V

You might also enjoy

एंथ्रोपिक परीक्षण अजीब परिणाम के साथ एक वास्तविक व्यवसाय चलाते हैं

أقوى شركة تكنولوجيا في العالم تتعرض لاختراق حسابات عملائها باستخدام الذكاء الاصطناعي

＃473 – 伊朗戰爭辯論：核武器，特朗普，和平，權力與中東

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace