बस मानव जोड़ें: ऑक्स कैसफोर्ड मेडिकल स्टडी अंडरस्कोर लापता लिंक चैटबॉट टेस्ट के लिए लापता लिंक


उद्यम नेताओं द्वारा लगभग दो दशकों तक एक विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक वास्तविक उद्यम एआई रणनीति बनाने के लिए लोगों को एक साथ लाता है। और अधिक जानें


सुर्खियां इसे वर्षों से आगे बढ़ा रही हैं: बड़ी भाषा मॉडल डेल (एलएलएम) न केवल मेडिकल लाइसेंसिंग परीक्षा, बल्कि मनुष्यों को भी ले जा सकते हैं। जीपीटी -4, 2023 के प्रागैतिहासिक एआई के दिनों में भी, 90% चिकित्सा परीक्षा के सवालों का सही जवाब दे सकता है। तब से, एलएलएम ने उन परीक्षाओं और लाइसेंस प्राप्त रसीदों को निवासियों का सबसे अच्छा बना दिया है।

आगे बढ़ो, डॉक्टर Google, चैटगुप, एमडी के लिए एक रास्ता बनाओ, लेकिन आप रोगियों के लिए तैनात एलएलएम से एक डिप्लोमा से अधिक चाहते हैं। पीओ मेडिकल छात्र की तरह, जो हाथ की हर हड्डी के नाम के साथ आगे बढ़ सकता है, लेकिन वास्तविक रक्त की पहली नजर में बेहोश हो सकता है, एलएलएम की दवा की महारत हमेशा वास्तविक दुनिया में सीधे अनुवाद नहीं करती है।

ऑक्स कैफ़ोर्ड यूनिवर्सिटी के शोधकर्ताओं के एक पेपर में पाया गया कि जब एलएलएमएस संबंधित शर्तें .994% समय की पहचान कर सकती हैं, जब परीक्षण के विचारों के साथ प्रत्यक्ष परीक्षण दृश्य प्रस्तुत किए जाते हैं, तो एलएलएम का उपयोग करने वाले मानव प्रतिभागियों को समान परिस्थितियों का निदान करने के लिए 34..5% से कम समय था।

शायद अधिक महत्वपूर्ण रूप से, एलएलएम का उपयोग करने वाले रोगियों ने नियंत्रण समूह की तुलना में भी बदतर प्रदर्शन किया, जिसे केवल “किसी भी तरीके को वे घर पर नियोजित करने वाले” का उपयोग करके खुद को निदान करने का निर्देश दिया गया था। समूह ने अपने स्वयं के उपकरणों पर छोड़ दिया है, एलएलएमएस द्वारा सहायता प्राप्त समूह की तुलना में उपयुक्त शर्तों की पहचान करने की संभावना 76% अधिक थी।

ऑक्स एक्सफोर्ड अध्ययन चिकित्सा सलाह के लिए एलएलएम की योग्यता के बारे में सवाल उठाता है और विभिन्न अनुप्रयोगों के लिए चैटबॉट तैनाती का मूल्यांकन करने के लिए उपयोग किया जाने वाला एक बेंचमार्क।

अपनी बीमारी का अनुमान लगाते हैं

डॉ। एडम महदी के नेतृत्व में, ऑक्स क्यूस्फोर्ड के शोधकर्ताओं ने एलएलएम में रोगियों के रूप में खुद को पेश करने के लिए 1,298 प्रतिभागियों की भर्ती की। आत्म-देखभाल से लेकर एम्बुलेंस कॉलिंग तक, उन्होंने बीमारी और इसकी खोज के लिए सही स्तर की देखभाल करने की कोशिश की।

प्रत्येक प्रतिभागी को सामान्य जीवन विवरण और चिकित्सा इतिहास का एक विस्तृत दृष्टिकोण मिला, जो निमोनिया से आम सर्दी तक स्थितियों का प्रतिनिधित्व करता है। उदाहरण के लिए, एक परिदृश्य एक 20 -वर्षीय इंजीनियरिंग छात्र का वर्णन करता है जो दोस्तों के साथ रात में सिरदर्द विकसित करता है। इसमें महत्वपूर्ण चिकित्सा विवरण शामिल हैं (यह नीचे देखने के लिए दर्दनाक है) और लाल झुंड (यह एक नियमित पीने वाला है, छह दोस्तों के साथ अपार्टमेंट का काम विभाजित करता है, और कुछ तनावपूर्ण परीक्षाओं को समाप्त करता है)।

अध्ययन में तीन अलग -अलग एलएलएम का परीक्षण किया गया है। शोधकर्ताओं ने अपनी लोकप्रियता के कारण GPT-4O को चुना, Lalama 3 अपने खुले वजन के लिए और इसके Reeo Refistaufy-applighty (RAG) क्षमताओं R+ कमांड, जो उन्हें मदद के लिए खुले वेब खोजने की अनुमति देता है।

प्रतिभागियों को एलएलएम के साथ कम से कम एक बार प्रदान किए गए विवरणों का उपयोग करके संवाद करने के लिए कहा गया था, लेकिन वे इसे जितनी बार उपयोग कर सकते हैं, वे अपने आत्म-निदान और इच्छित कार्रवाई तक पहुंचना चाहते हैं।

पर्दे के पीछे, चिकित्सकों की टीम ने सर्वसम्मति से “गोल्ड स्टैंडर्ड” स्थितियों पर फैसला किया, जो उन्होंने प्रत्येक परिदृश्य में मांगी गई थी और कार्रवाई के संगत पाठ्यक्रम में। उदाहरण के लिए, हमारा इंजीनियरिंग छात्र सबराचनोइड हेमोरेज से पीड़ित है, जिसे तुरंत ईआर का दौरा करना चाहिए।

टेलीफ़ोन खेल

जब आप एक एलएलएम के बारे में सोचते हैं जो मेडिकल परीक्षा पास कर सकता है, तो यह आंकड़े के लिए सही उपकरण होगा कि आम लोगों को आत्म-टू-डायग्नोज और क्या करना है, यह उस तरह से काम नहीं करता है। अध्ययन में कहा गया है, “एलएलएम का उपयोग करने वाले प्रतिभागियों ने नियंत्रण समूह की तुलना में प्रासंगिक शर्तों की कम निरंतर पहचान दी, नियंत्रण के लिए 47.5% की तुलना में कम से कम 34.5% मामलों में कम से कम एक प्रासंगिक स्थिति की पहचान की।” एलएलएम के लिए स्वतंत्र रूप से अभिनय करने के लिए, वे केवल .2 44.1%की तुलना में केवल .2 44.1%का चयन करके कार्रवाई के वास्तविक मार्ग को भी विफल कर दिए।

क्या गलत हो गया?

ट्रांसक्रिप्ट को देखते हुए, शोधकर्ताओं ने पाया कि प्रतिभागियों ने एलएलएमएस को अधूरी जानकारी प्रदान की और एलएलएम ने अपने संकेतों को गलत समझा। उदाहरण के लिए, एक उपयोगकर्ता जो पित्ताशय की थैली के लक्षण दिखाता है, वह केवल एलएलएम को बताता है: “मुझे एक घंटे के पेट में दर्द है, यह मुझे ओम को लटका सकता है और उपाय के अनुरूप महसूस कर सकता है,” दर्द, गंभीरता और आवृत्ति के स्थान को छोड़कर। कमांड आर+ ने गलत तरीके से संकेत दिया कि प्रतिभागी अपच का अनुभव कर रहा था, और प्रतिभागी ने गलत तरीके से स्थिति का अनुमान लगाया था।

यहां तक ​​कि जब LLMSA ने सही जानकारी दी, तो प्रतिभागियों ने हमेशा इसकी सिफारिशों का पालन नहीं किया। अध्ययन में पाया गया कि GPT-4 O वार्तालाप .7 65..7% दृश्य के लिए कम से कम एक प्रासंगिक स्थिति को इंगित करता है, लेकिन प्रतिभागियों के अंतिम उत्तर के 34.5% से कम प्रासंगिक स्थितियों को दर्शाते हैं।

चर

यह अध्ययन उपयोगी है, लेकिन आश्चर्य की बात नहीं है, चैपल हिल के उत्तरी कैरोलिना विश्वविद्यालय, पुनर्जागरण कम्प्यूटिंग संस्थान (RENCI) में उपयोगकर्ता अनुभव विशेषज्ञ के अनुसार।

वह कहते हैं, “हम में से बुजुर्गों के लिए इंटरनेट खोज के शुरुआती दिनों को याद करने के लिए, यह एक डीज है।” “एक उपकरण के रूप में, बड़े भाषा के मॉडल को एक निश्चित डिग्री गुणवत्ता के साथ डेलो को लिखने के लिए कहा जाना चाहिए, खासकर जब गुणवत्ता उत्पादन की उम्मीद है।”

यह बताता है कि एक व्यक्ति को अंधा दर्द का अनुभव होता है जो महान संकेत नहीं देगा। यद्यपि लैब प्रयोग में प्रतिभागियों को प्रत्यक्ष लक्षणों का अनुभव नहीं हो रहा था, लेकिन उन्होंने हर विवरण को रिले नहीं किया।

वोल्किम कहते हैं, “एक कारण यह भी है कि फ्रंट लाइन पर रोगियों के साथ व्यवहार करने वाले चिकित्सक को एक निश्चित तरीके से और एक निश्चित पुनरावृत्ति में सवाल पूछने के लिए प्रशिक्षित किया जाता है।” मरीजों को जानकारी छोड़ दी जाती है क्योंकि वे नहीं जानते कि क्या संबंधित है, या सबसे खराब है, झूठ क्योंकि वे शर्म या शर्म महसूस करते हैं।

क्या चैटबॉट्स को उन्हें संबोधित करने के लिए बेहतर बनाया जा सकता है? ज्वालामुखी ने चेतावनी दी, “मैं यहां मशीनरी पर जोर नहीं देता।” मैं विचार करूंगा कि मानव-तकनीकी बातचीत पर जोर दिया जाना चाहिए। “वह कार, यह विश्लेषण करती है, लोगों को बिंदु A से B तक पहुंचाने के लिए बनाया गया था, लेकिन कई अन्य कारक एक भूमिका निभाते हैं।” यह सिर्फ मशीन तक नहीं है। “

बेहतर यार्डस्टिक

ऑक्स एक्सफोर्ड अध्ययन एक समस्या पर प्रकाश डालता है, न कि मनुष्यों या एलएलएम के साथ, लेकिन जिस तरह से हम कभी -कभी इसे मापते हैं – वैक्यूम में।

जब हम कहते हैं कि LLM एक मेडिकल लाइसेंसिंग टेस्ट, रियल एस्टेट लाइसेंसिंग परीक्षा या स्टेट बार परीक्षा पास कर सकता है, तो हम मनुष्यों का मूल्यांकन करने के लिए डिज़ाइन किए गए उपकरणों का उपयोग करके इसके J Kneltge समर्थन के THS TSPAN की जांच कर रहे हैं। हालांकि, ये कदम हमें बहुत कम बताते हैं कि ये चैटबॉट कैसे सफलतापूर्वक मनुष्यों से संपर्क करेंगे।

“प्रॉम्प्ट पाठ्यपुस्तकें थीं (स्रोत और चिकित्सा समुदाय द्वारा विश्वास किया गया था), लेकिन जीवन और लोगों की पाठ्यपुस्तकों को नहीं,” डॉ। डॉ। ज्वालामुखी बताते हैं।

अपने आंतरिक Junowledge बेस पर एक प्रशिक्षण समर्थन चैटबॉट को तैनात करने के बारे में एक उद्यम की कल्पना करें। B OTTT केवल यह परीक्षण कर सकता है कि यह ग्राहक सहायता प्रशिक्षुओं के लिए कंपनी का उपयोग उसी परीक्षण के लिए करता है: पूर्व “ग्राहक” का उत्तर देने के लिए प्रश्नों का उत्तर देने के लिए और बहुविकल्पीय उत्तरों का चयन करें। 95% की सटीकता निश्चित रूप से बहुत आशाजनक लगेगी।

तब परिनियोजन आता है: वास्तविक उपभोक्ता अस्पष्ट शब्दों का उपयोग करते हैं, निराशा व्यक्त करते हैं, या अप्रत्याशित समस्याएं। एलएलएम, स्पष्ट कट प्रश्नों पर बस बेंचमार्क, भ्रमित, और झूठे या असुरक्षित उत्तर प्रदान करता है। इसे डी-एस्केलिंग स्थितियों पर या प्रभावी रूप से स्पष्टता प्राप्त करने के लिए प्रशिक्षित या मूल्यांकन नहीं किया गया है। गुस्से में ile गैल की समीक्षा करता है। एलएलएम एक आपदा है, जो परीक्षणों द्वारा यात्रा करने के बावजूद अपने मानव समकक्षों के लिए मजबूत दिखती है।

यह अध्ययन एआई इंजीनियरों और सी रेस्ट्रिपल विशेषज्ञों के लिए एक महत्वपूर्ण अनुस्मारक के रूप में कार्य करता है: यदि एक एलएलएम को मनुष्यों के साथ संवाद करने के लिए डिज़ाइन किया गया है, तो केवल गैर-इंटरैक्टिव बेंचमार्क अपनी वास्तविक दुनिया की क्षमताओं के बारे में सुरक्षा की एक खतरनाक गलत भावना पैदा कर सकता है। यदि आप मनुष्यों के साथ संवाद करने के लिए एक एलएलएम डिजाइन कर रहे हैं, तो आपको इसे मनुष्यों के साथ परीक्षण करने की आवश्यकता है – मनुष्यों के लिए परीक्षण नहीं। लेकिन क्या कोई अच्छा तरीका है?

ए.आई.

ऑक्स एक्सफोर्ड के शोधकर्ताओं ने अपने अध्ययन के लिए लगभग 1,300 लोगों की भर्ती की, लेकिन अधिकांश उद्यमों में एक नए एलएलएम एजेंट की प्रतीक्षा में बैठे विषयों का एक पूल नहीं है। तो क्यों नहीं केवल मानव परीक्षार्थियों के लिए एआई परीक्षार्थियों को स्थानापन्न किया जाता है?

महदी और उनकी टीम ने भी सिम्युलेटेड प्रतिभागियों के साथ कोशिश की। “आप एक मरीज हैं,” उन्होंने एलएलएम के लिए कहा, सलाह से अलग। “आपको किसी दिए गए केस Vignnet और AI मॉडल की मदद से अपनी सुविधाओं को आत्म-शलंग करना होगा। आम आदमी की भाषा के लिए दिए गए पैराग्राफ में उपयोग की जाने वाली शब्दावली को सरल बनाएं और अपने प्रश्नों या बयानों को यथोचित रूप से रखें।” एलएलएम को यह भी निर्देश दिया गया था कि वे मेडिकल जुनोवलेज का उपयोग न करें या नए लक्षणों का उत्पादन न करें।

ये सिम्युलेटेड प्रतिभागी फिर मानव प्रतिभागियों द्वारा उपयोग किए जाने वाले एक ही एलएलएम के साथ चैट करते हैं। लेकिन उन्होंने बेहतर प्रदर्शन किया। औसतन, 34.5% की तुलना में मनुष्यों में समान एलएलएम टूल्स कील 60.7% संबंधित स्थितियों का उपयोग करते हुए, सिम्युलेटेड प्रतिभागी।

इस मामले में, यह पता चला है कि LLMS मनुष्यों की तुलना में अन्य LLM के साथ अच्छे खेलता है, जिससे वे वास्तविक जीवन के प्रभाव का एक कमजोर भविष्यवक्ता बन जाते हैं।

उपयोगकर्ता को दोष न दें

उन स्कोर को देखते हुए जो एलएलएम अपने दम पर प्राप्त कर सकते हैं, यह यहां प्रतिभागियों को लुभाया जा सकता है। अंत में, कई मामलों में, उन्होंने एलएलएम के साथ अपनी बातचीत में एक उचित निदान प्राप्त किया, लेकिन वे अभी भी ठीक से अनुमान लगाने में विफल रहे। लेकिन यह किसी भी व्यवसाय के लिए एक मूर्खतापूर्ण निष्कर्ष होगा, वोल्किमर चेतावनी देता है।

“हर ग्राहक के माहौल में, यदि आपके ग्राहक वह नहीं कर रहे हैं जो आप चाहते हैं, तो आखिरी चीज जो आप करते हैं, वह ग्राहक को दोषी ठहराना है,” वोल्कमिमर कहते हैं। “पहली बात यह है कि आप ऐसा क्यों करते हैं। और नॉट ‘क्यों’ आपके सिर के ऊपर से बाहर: लेकिन एक गहरी वांडा परीक्षा, विशेष, मानवशास्त्रीय, मानसिक, ‘क्यों’। यह आपका शुरुआती बिंदु है।”

आपको एक चैटबॉट को तैनात करने से पहले अपने दर्शकों, उनके लक्ष्यों और ग्राहक अनुभव को समझने की आवश्यकता है, एक वॉलकर का सुझाव दें। यह सब पूर्ण, विशिष्ट दस्तावेजों की रिपोर्ट करेगा जो अंततः एलएलएम को उपयोगी बना देगा। सावधानीपूर्वक क्यूरेट ट्रेनिंग सामग्री के बिना, “यह कुछ सामान्य उत्तर देगा जो हर किसी से नफरत करता है, यही वजह है कि लोग चैटबॉट्स से नफरत करते हैं,” वे कहते हैं। जब ऐसा होता है, “ऐसा नहीं है क्योंकि चैटबॉट भयानक हैं या क्योंकि कुछ तकनीकी रूप से उनके साथ गलत है। यह इसलिए है क्योंकि इसमें जो सामान था वह बुरा है।”

“लोग प्रौद्योगिकी बनाते हैं, वहां जाने के लिए जानकारी विकसित करते हैं, और प्रक्रियाएं और सिस्टम, अच्छी तरह से, लोग,” वोलसीमर कहते हैं। “उनके पास पृष्ठभूमि, धारणाएं, त्रुटियां और ब्लाइंडस्पॉट्स, साथ ही शक्तियां हैं। और वे किसी भी तकनीकी निपटान में सभी चीजें बना सकते हैं।”

Scroll to Top