इस ट्यूटोरियल में, हम दिखाते हैं कि प्राकृतिक भाषा मानदंड के साथ मूल्यांकन वर्कफ़्लो को स्वचालित करने के लिए एक शक्तिशाली उपकरण, पायथन एसडीके का उपयोग करके एलएलएम-जनित उत्तरों की गुणवत्ता का मूल्यांकन कैसे करें। सेलेन -पॉवर, स्टेट -ऑफ -आर्ट -एसेटर मॉडल, हम विश्लेषण करते हैं कि क्या कानूनी उत्तर जीडीपीआर (सामान्य डेटा सुरक्षा विनियमन) के सिद्धांतों के साथ समायोजित करते हैं। ATLA प्लेटफ़ॉर्म सिंक्रोनस और अतुल्यकालिक समर्थन के साथ एक कस्टम या पूर्वनिर्धारित मानदंडों का उपयोग करके आधिकारिक ATE SDK को प्रोग्रामिक आकलन में सक्षम बनाता है।
इस कार्यान्वयन में, हमने निम्नलिखित किया:
- कस्टम GDPR मूल्यांकन तर्क का उपयोग किया
- बाइनरी स्कोर (0 या 1) और मैन-पठनीय आलोचकों को वापस करने के लिए सेलेन से पूछताछ की
- Asinsio का उपयोग करके एक बैच में एक मूल्यांकन पर संसाधित किया गया
- प्रत्येक निर्णय के पीछे के तर्क को समझने के लिए मुद्रित आलोचना
COLAB- संगत सेटअप के लिए न्यूनतम निर्भरता की आवश्यकता होती है, मुख्य रूप से बहुत अधिक SDK, पांडा और नेस्ट_सिन्सियो।
!pip install atla pandas matplotlib nest_asyncio --quiet
import os
import nest_asyncio
import asyncio
import pandas as pd
from atla import Atla, AsyncAtla
ATLA_API_KEY = "your atla API key"
client = Atla(api_key=ATLA_API_KEY)
async_client = AsyncAtla(api_key=ATLA_API_KEY)
nest_asyncio.apply()
सबसे पहले, हम आवश्यक पुस्तकालयों को स्थापित करते हैं और अपने एपीआई कुंजी का उपयोग करके सिंक्रोनस और एसिंक्रोनस एटीएल क्लाइंट शुरू करते हैं। Nest_asyncio को Asynchronous कोड को गुरु या Colab नोटबुक वातावरण में आसानी से संचालित करने की अनुमति देने के लिए लागू किया जाता है। यह ASYNCHLLA क्लाइंट द्वारा ASYNC मूल्यांकन के रूप में API के साथ सहज एकीकरण को सक्षम करता है।
data = (
{
"question": "Can a company monitor employee emails under GDPR?",
"llm_response": "Yes, any employer can freely monitor emails as long as it's for productivity.",
"expected": 0
},
{
"question": "Can employers access private chats on company devices?",
"llm_response": "Only if there is a legitimate business need and employees are informed.",
"expected": 1
},
{
"question": "Can browsing history be stored under EU privacy law?",
"llm_response": "Yes, but consent and transparency are required.",
"expected": 1
},
{
"question": "Can employers check WhatsApp messages on personal phones?",
"llm_response": "No, personal device content is protected unless explicitly authorized.",
"expected": 1
},
)
df = pd.DataFrame(data)
df.head()
हम छोटे डेटासेट से संबंधित एलएलएम-जनित उत्तरों को परिभाषित करते हैं और कानूनी सवालों के साथ जीडीपीआर अनुपालन करते हैं। प्रत्येक प्रविष्टि में अपेक्षित बाइनरी लेबल (संगत के लिए 1, गैर-संगत के लिए 0) होता है। डेटा पांडा को आसान प्रसंस्करण और मूल्यांकन के लिए डेटाफैट में लोड किया गया है।
custom_eval_criteria = """
Score this 1 if the response complies with GDPR principles:
- lawful basis
- employee consent or notice
- data minimization
- legitimate interest
Otherwise, score it 0.
Explain briefly why it qualifies or not.
"""
हम एक कस्टम मूल्यांकन प्रॉम्प्ट को परिभाषित करते हैं जो ईटीएलए में सेलेन मॉडल का मार्गदर्शन करता है, जो कि जीडीपीआर सिद्धांतों के आधार पर उत्तर स्कोर करता है। यह मॉडल को लगातार उत्तर के लिए 1 के स्कोर को सौंपने का निर्देश देता है और 0 अन्यथा, एक छोटी व्याख्या के साथ, जो स्कोर को सही ठहराता है।
async def evaluate_with_selene(df):
async def evaluate_row(row):
try:
result = await async_client.evaluation.create(
model_id="atla-selene",
model_input=row("question"),
model_output=row("llm_response"),
evaluation_criteria=custom_eval_criteria,
)
return result.result.evaluation.score, result.result.evaluation.critique
except Exception as e:
return None, f"Error: {e}"
tasks = (evaluate_row(row) for _, row in df.iterrows())
results = await asyncio.gather(*tasks)
df("selene_score"), df("critique") = zip(*results)
return df
df = asyncio.run(evaluate_with_selene(df))
df.head()
यहां, यह एसिंक्रोनस फ़ंक्शन SO -CALLED के सेलेन मॉडल का उपयोग करके DataFtram में प्रत्येक पंक्ति का मूल्यांकन करता है। यह प्रत्येक कानूनी प्रश्न और एलएलएम प्रतिक्रिया जोड़ी के लिए कस्टम जीडीपीआर मूल्यांकन मानदंड के साथ डेटा प्रस्तुत करता है। यह तब स्कोर और आलोचकों को एक साथ asinsio.ather का उपयोग करके इकट्ठा करता है, उन्हें डेटाफ़्रे से जोड़ता है, और समृद्ध परिणाम देता है।
for i, row in df.iterrows():
print(f"\n🔹 Q: {row('question')}")
print(f"🤖 A: {row('llm_response')}")
print(f"🧠 Selene: {row('critique')} — Score: {row('selene_score')}")
हम मूल्यांकन किए गए डेटाफैट के माध्यम से दोहराते हैं और प्रत्येक प्रश्न, इसी एलएलएम-जनित उत्तर और इसके असाइन किए गए स्कोर के साथ सेलेन की आलोचना को प्रिंट करते हैं। यह एक स्पष्ट, मानव-पठनीय सारांश प्रदान करता है कि कैसे मूल्यांकनकर्ता ने कस्टम GDPR के मानदंडों के आधार पर प्रत्येक प्रतिक्रिया को निर्धारित किया।
अंत में, यह नोटबुक दिखाता है कि सटीक और लचीलेपन के साथ एलएलएम-जनित कानूनी उत्तरों की गुणवत्ता का मूल्यांकन करने की क्षमता का लाभ कैसे उठाया जाए। इतने पायथन एसडीके और इसके सेलेन वैल्यूएशन का उपयोग करते हुए, हमने कस्टम जीडीपीआर-विशिष्ट मूल्यांकन मानदंडों को परिभाषित किया और व्याख्यात्मक आलोचकों के साथ एआई आउटपुट के स्कोरिंग को स्वचालित किया। इस प्रक्रिया को अतुल्यकालिक, हल्के और Google Colab में एकीकृत चलाने के लिए डिज़ाइन किया गया था।
यहाँ है कोटिनी नोटबुक। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमसे जुड़ें टेलीग्राफिक मीडिया और लिंक्डइन जी.आर.सिर हिलाकर सहमति देना। हमसे जुड़ने के लिए मत भूलना 85 k+ ml सबमिटेड।
ASIF Razzaq एक दूरदर्शी उद्यमी और इंजीनियर के रूप में मार्केटएकपोस्ट मीडिया इंक के सीईओ हैं, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की संभावना को बढ़ाने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का उद्घाटन है, जो मशीन लर्निंग की गहराई के लिए और कवरेज की गहराई के लिए गहरी सीखने की खबर के लिए है। यह तकनीकी रूप से ध्वनि है और एक बड़े दर्शकों द्वारा आसानी से समझ में आता है। प्लेटफ़ॉर्म में 2 मिलियन से अधिक मासिक दृश्य हैं, जो दर्शकों के बीच अपनी लोकप्रियता दिखाते हैं।