मानव-ए.ए.

रिकू अर्कवा द्वारा

टीएल; DR: स्मैशलैब में, हम एक बुद्धिमान सहायक बना रहे हैं जो खाना पकाने और DIY जैसे शारीरिक कार्यों का समर्थन करने के लिए स्मार्टवॉच में सेंसर का उपयोग करता है। यह ब्लॉग पोस्ट पता चलता है कि हम अपने दैनिक जीवन में कार्य निष्पादन के लिए सहायक, संदर्भ-विग इंटरैक्शन को सक्षम करने के लिए कैमरे के साथ कम घुसपैठ दृश्य समझ का उपयोग कैसे करते हैं।

बस डिजिटल दुनिया के कार्यों के लिए एआई सहायकों के बारे में सोच रहे हैं? हर दिन, हम कई कार्य करते हैं, जिसमें खाना पकाने, क्राफ्टिंग और मेडिकल सेल्फ-केयर (जैसे कि कोविड -19 सेल्फ-टेस्ट किट) शामिल हैं, जिसमें विभिन्न चरणों की एक श्रृंखला भी शामिल है। सभी चरणों को सही ढंग से चलाना मुश्किल हो सकता है; जब हम एक नया नुस्खा आजमाते हैं, उदाहरण के लिए, हमारे पास किसी भी कदम पर प्रश्न हो सकते हैं और महत्वपूर्ण कदमों को छोड़कर या गलत क्रम में गलतियाँ कर सकते हैं।

परियोजना, सेंसिंग मॉड्यूल (प्रिज्म) से कार्रवाई की बातचीतइसका उद्देश्य संवाद -आधारित इंटरैक्शन के माध्यम से ऐसे कार्यों को लागू करने में उपयोगकर्ताओं का समर्थन करना है। कैमरा, स्मार्टवॉच और एक गोपनीयता-संरक्षित परिवेश सेंसर जैसे डॉपलर रडार जैसे सेंसर का उपयोग करना, प्रासंगिक उपयोगकर्ता के संदर्भ (वे कार्य में क्या कर रहे हैं) का अनुमान लगा सकते हैं और संदर्भ-आधारित सहायता प्रदान कर सकते हैं।

प्रिज्म फ्रेमवर्क का अवलोकन: एक साझा लक्ष्य प्राप्त करने के लिए, मल्टीमॉडल सेंसिंग, उपयोगकर्ता राज्य ट्रैकिंग, संदर्भ-जागरूक इंटरैक्शन, और सह-संलग्नक, साझा लक्ष्य।

इंसानों की तरह मदद प्राप्त करने के लिए, हमें कई बातों पर विचार करना चाहिए: एजेंट उपयोगकर्ता के संदर्भ को कैसे समझता है? उस उपयोगकर्ता के सहज प्रश्न कैसे प्रतिक्रिया करनी चाहिए? उसे सक्रिय रूप से हस्तक्षेप करने का फैसला कब करना चाहिए? और सबसे महत्वपूर्ण बात यह है कि मानव उपयोगकर्ता और एआई सहायक दोनों रोजमर्रा की बातचीत से कैसे विकसित होते हैं?

जबकि विभिन्न सेंसिंग प्लेटफॉर्म (जैसे, कैमरा, नेता, डॉपलर रडार, आदि) का उपयोग हमारी संरचना में किया जा सकता है, हम निम्नलिखित में स्मार्टवॉच आधारित गौण पर ध्यान केंद्रित करते हैं। स्मार्टवॉच को अपनी सर्वव्यापकता, कैमरा एमईआरए-आधारित प्रणालियों की तुलना में न्यूनतम गोपनीयता चिंताओं और विभिन्न दैनिक गतिविधियों में उपयोगकर्ता की निगरानी करने की क्षमता के लिए चुना जाता है।

मल्टीमॉडल सेंसिंग के साथ उपयोगकर्ता क्रियाओं को ट्रैक करना

PRISM-TRACKER प्रक्रियात्मक कार्यों में फ्रेम-स्तरीय मल्टीमॉडल मानव गतिविधि वैधता में सुधार करने के लिए एक संक्रमण ग्राफ का उपयोग करता है।

मानव गतिविधि की मान्यता (एचआर) सेंसर से उपयोगकर्ता गतिविधि संदर्भों की पहचान करने की एक तकनीक है। उदाहरण के लिए, स्मार्टवॉच में हाथ धोने और काटने जैसे विभिन्न दैनिक गतिविधियों को खोजने के लिए मोशन और ऑडियो डीईओ सेंसर है (1)। हालांकि, सीएस के बाहर, शोर डेटा और कम-डिस्टिंक्टेड कार्यों के साथ संघर्ष होता है जो अक्सर दैनिक जीवन के कार्यों का हिस्सा होते हैं।

प्रिज्म-ट्रैकर (imwut’22) (2) राज्य संक्रमण जानकारी जोड़कर ट्रैकिंग में सुधार करता है, अर्थात्, उपयोगकर्ता एक कदम से दूसरे चरण में कैसे संक्रमण करते हैं और प्रत्येक चरण पर आमतौर पर कितना समय बिताते हैं। ट्रैकर हर पूर्वानुमान को फ्रेम-बाय-फ्रेम को स्थिर करने के लिए अनुभवी एल्गोरिथ्म (3) के एक विस्तृत संस्करण का उपयोग करता है।

लेट-मैचिंग फ़ंक्शन में 19 चरण शामिल हैं। प्रिज्म-ट्रैकर (दाएं) वयोवृद्ध एल्गोरिथ्म के एक विस्तृत संस्करण के साथ रॉ क्लासिफाइड की ट्रैकिंग सटीकता (बाएं) में सुधार करता है।

जैसा कि उपरोक्त आंकड़े में दिखाया गया है, उपस्थिति फ्रेम-दर-फ्रेम ट्रैकिंग की सटीकता में सुधार करता है। फिर भी, समग्र सटीकता लगभग 50-60%है, जो कि फ्रेम स्तर पर राज्य को निश्चित रूप से ट्रैक बनाने के लिए स्मार्टवॉच का उपयोग करने की चुनौती को उजागर करता है। फिर भी, हम इस अपूर्ण सनसनी से सहायक इंटरैक्शन विकसित कर सकते हैं।

उपयोगकर्ता अनिश्चित प्रश्नों का उत्तर दें

प्रिज्म-क्यू में डेमो और एक देर से मातम दृश्य (1: 06-)

वॉयस असिस्टेंट (जैसे कि सिरी और अमेज़ॅन अलेक्जज़ा), विभिन्न भौतिक कार्यों के दौरान उपयोगकर्ता के सवालों के जवाब देने में सक्षम, ने जटिल प्रक्रियाओं के माध्यम से उपयोगकर्ताओं को मार्गदर्शन करने का वादा दिखाया है। तथापि, चुनौतीपूर्ण उपयोगकर्ताओं को अपने सवालों को स्पष्ट रूप से स्पष्ट करने के लिए चुनौतीपूर्ण महसूस करेंखासकर जब एक निश्चित शब्दावली से अनजान हो। हमारा प्रिज्म-क्यू और ए (imwut’24) ()) ऐसे मुद्दों को एक संदर्भ के साथ हल कर सकता है जो उत्पन्न होता है उपस्थिति

प्रिज्म-क्यू और वास्तविक समय में उपयोगकर्ता कैसे प्रश्नों की प्रक्रिया करता है, इसका अवलोकन

जब एक प्रश्न पूछा जाता है, “मुझे इसके साथ आगे क्या करना चाहिए?” यहां तक ​​कि स्वाभाविक रूप से अस्पष्ट प्रश्नों के मामले में, क्या बड़ी भाषा के मॉडल डेलो (एलएलएम) के लिए संवेदना की संदर्भित जानकारी है, प्रतिक्रिया का उत्पादन करने के लिए उपयोग किए जाने वाले त्वरित संदर्भ के हिस्से के रूप में? और “क्या मुझे एक कदम याद आया?” हमारे अध्ययनों ने जवाब दिया और कई कार्यों में मौजूदा आवाज के मुद्दों की तुलना में उपयोगकर्ता अनुभव के जवाब में बेहतर सटीकता दिखाया: खाना पकाने, देर से बनाना और त्वचा की देखभाल।

कारण उपस्थिति गलतियाँ, आउटपुट कर सकते हैं प्रिज्म-क्यू और ए गलत भी हो सकता है। इस प्रकार, यदि सहायक संदर्भ सूचना का उपयोग करता है, तो सहायक उपयोगकर्ता के जवाब में संदर्भ की अपनी वर्तमान समझ की विशेषता है, उदाहरण के लिए, “यदि आप हैं अपने हाथ धोएंफिर अगला कदम है सब्जियों को काट देनाBles। “इस तरह, यह उपयोगकर्ताओं को त्रुटि की पहचान करने में मदद करने की कोशिश करता है और वांछित उत्तर प्राप्त करने के लिए इसे इंटरैक्टिव में जल्दी से सुधारने में मदद करता है।

त्रुटियों को रोकने के लिए उपयोगकर्ताओं के साथ सक्रिय रूप से हस्तक्षेप करना

खाना पकाने के परिदृश्य में प्रिज्म-ऑब्जर्वर का डेमो (3: 38-)

अगला, हम त्रुटियों को रोकने के लिए सक्रिय हस्तक्षेप को शामिल करके सहायक की क्षमता का विस्तार करते हैं। तकनीकी चुनौतियों में वॉयस और यूजर बिहेवियर में डेटा सेंसिंग में अनिश्चितताएं शामिल हैं, खासकर क्योंकि उपयोगकर्ताओं को कार्यों को पूरा करने के लिए कदम रखने की अनुमति दी जाती है। इन चुनौतियों को पार करने के लिए, PRISM-OBZARVER (UIST’24) ()) अनिश्चितताओं पर विचार करने और वास्तविक समय में अनुस्मारक देने के लिए सबसे अच्छा समय निर्धारित करने के लिए एक स्टोकस्टिक मॉडल का उपयोग करता है।

PRISM-OBSERVER लगातार दो अनिश्चितता सहित लक्ष्य कदम के बाकी हिस्सों को मॉडलिंग कर रहा है: उपयोगकर्ता का वर्तमान चरण और भविष्य के संक्रमण व्यवहार।

गंभीर रूप से, सहायक कठोर, पूर्वनिर्धारित चरण-दर-चरण अनुक्रम को लागू नहीं करता है; इसके बजाय, यह उपयोगकर्ता के व्यवहार की निगरानी करता है और जरूरत पड़ने पर सक्रिय रूप से हस्तक्षेप करता है। यह दृष्टिकोण उपयोगकर्ता की स्वायत्तता और सक्रिय मार्गदर्शन को संतुलित करता है, जिससे व्यक्तियों को आवश्यक कार्यों को सुरक्षित और सटीक रूप से करने में सक्षम बनाया जाता है।

भविष्य की दिशाएं

हमारी सहायक प्रणाली को अभी रोल किया गया है, और भविष्य का काम अभी भी क्षितिज पर है।

डेटा संग्रह प्रयासों को कम करना

स्मार्टवॉच पर अंतर्निहित मानव गतिविधि सत्यापन मॉडल को प्रशिक्षित करने और एक संक्रमण ग्राफ बनाने के लिए, हम वर्तमान में प्रत्येक चरण के लेबल के साथ 10 से 20 सत्रों का प्रबंधन करते हैं। विभिन्न दैनिक कार्यों का प्रबंधन करने के लिए सहायक को स्केल करने के लिए शून्य-शॉट टीओटी मल्टीमॉडल गतिविधि मान्यता मॉडल और शोधन कदम की आवश्यकता होती है।

उपयोगकर्ता और एआई सहायक की सह-बवन

स्वास्थ्य अनुप्रयोग में, हमारे सहायक और उपयोगकर्ता एक साझा लक्ष्य प्राप्त करने के लिए दैनिक बातचीत के माध्यम से समय के साथ एक दूसरे से सीखते हैं।

भविष्य के कार्य के रूप में, हम पोस्ट -ओपेरा -इन -सिन्किन कैंसर के रोगियों और मनोभ्रंश की दैनिक देखभाल का समर्थन करने के लिए स्वास्थ्य सेवा सेटिंग्स में अपने सहायकों को तैनात करने के लिए उत्साहित हैं।

मेक ()) ने एक विचार प्रस्तुत किया मानव कंप्यूटर भागीदारीजहां मानव और बुद्धिमान एजेंट अकेले काम करने के लिए आगे बढ़ने के लिए सहयोग करते हैं। लेकिन पारस्परिक सह-बधाई ()) उपयोगकर्ता और सिस्टम दोनों विशिष्ट लक्ष्यों को प्राप्त करने के लिए दूसरों के व्यवहार को संदर्भित करते हैं और प्रभावित करते हैं। इन विचारों से प्रेरित होकर, हम सक्रिय रूप से तैनाती के बाद बातचीत के माध्यम से अपने सहायक को अच्छी तरह से ट्यूनिंग करने के तरीकों की खोज कर रहे हैं। यह संदर्भ की समझ को बेहतर बनाने और एक आरामदायक नियंत्रण संतुलन खोजने में मदद करता है खोज करके इंटरैक्शन डिजाइन (8)।

अंत

कई खुले प्रश्न हैं जब यह सहायकों को शारीरिक कार्यों के लिए सही बनाने की बात आती है। इन कार्यों के दौरान उपयोगकर्ता के संदर्भ को समझना विशेष रूप से सेंसर शोर जैसे कारकों के कारण चुनौतीपूर्ण है। हमारे द्वारा पीआर परियोजना, हमारा लक्ष्य हस्तक्षेपों को डिजाइन करके और मानव-एआई सहयोग की रणनीति विकसित करके इन चुनौतियों को समाप्त करना है। हमारा लक्ष्य अधूरा संवेदनाओं का सामना करके भी सहायक और विश्वसनीय इंटरैक्शन बनाना है।

हमारे कोड और डेटासेट GITHB में उपलब्ध हैं। हम इस रोमांचक अनुसंधान क्षेत्र में सक्रिय रूप से काम कर रहे हैं। यदि आप रुचि रखते हैं, तो कृपया रिकू अर्कवा (एचसीआईआई पीएचडी छात्र) से संपर्क करें।

पावती

लेखक ने परियोजना के हर सहयोगी को धन्यवाद दिया। स्वास्थ्य कार्यक्रमों के लिए प्रिज्म सहायक का विकास विश्वविद्यालय के अस्पतालों के विश्वविद्यालय के अस्पतालों के सहयोग से है और फ्रैंथोफर पुर्तगाल ICOS।

प्रसंग

। समोसा: गति और उप -ऑडियो देओ के साथ संवेदी गतिविधियाँ। इंटरैक्टिव, मोबाइल, युद्ध योग्य और यूटुइजिव टेक्नोलॉजी पर एसीएम की प्रक्रिया, 6(३), १-१९।

(२) अर्कवा, आर।, याकुरा, एच।, मोलिन, वी। PRISM-TRACKER: मल्टीमॉडल प्रोसेस के लिए एक संरचना जो युद्ध योग्य सेंसर और राज्य संक्रमण की जानकारी का उपयोग करके त्रुटियों और अनिश्चितता के उपयोगकर्ता-संचालित हैंडलिंग के साथ ट्रैकिंग है। इंटरैक्टिव, मोबाइल, युद्ध योग्य और यूटुइजिव टेक्नोलॉजी पर एसीएम की प्रक्रिया, 6(4), 1-27।

()) FORNIE, GD (1973)। अनुभवी एल्गोरिथ्म। IEEE की कार्रवाई, 61(3), 268-278।

()) अर्कवा, आर।, लेहमैन, जे.एफ. और गोएल, एम। (२०२४) “प्रिज्म-क्यू और ए: मल्टीमॉडल प्रोसेस ट्रैकिंग और स्टेप-वॉयस, बड़ी भाषा के मॉडल डेलो द्वारा सक्षम स्मार्टवॉच पर सहायक है।” इंटरएक्टिव, मोबाइल, युद्ध योग्य और यूटुइजिव टेक्नोलॉजी पर एसीएम प्रक्रियाएं, 8(४), १-२६।

(५) अर्कवा, आर।, याकुरा, एच।, और गोएल, एम। (२०२४, अक्टूबर कतबर)। PRISM-OBSERVER: हस्तक्षेप एजेंट उपयोगकर्ताओं को स्मार्टवॉच का उपयोग करके उपयोगकर्ताओं को संसाधित करने में मदद करने के लिए। में उपयोगकर्ता इंटरफ़ेस एस सॉफ्टवेयर एफटीवेयर और प्रौद्योगिकी पर 37 वें वार्षिक एसीएम संगोष्ठी की प्रक्रिया (पी। 1-16)।

(६) मैकके, हम (२०२३, नवंबर) एक मानव-कंप्यूटर साझेदारी बनाते हैं। में कंप्यूटर-मानव इंटरैक्शन रिसर्च एंड ऐप्स पर इंटरनेशनल काउंसिल (पी। 3-17)। CHAM: स्प्रिंगर नेचर स्वित्ज़रल। और।

। बातचीत के सामान्य सिद्धांत। कंप्यूटर-मानव बातचीत पर एसीएम लेनदेन (टोची), 28 (6), 1-54।

(() एलन, जेई, गिनी, सीआई, और होरवेट्स, ई। (1999)। मिश्रित-प्रारंभिक बातचीत। IEEE इंटेलिजेंट सिस्टम और उनके एप्लिकेशन14 (5), 14-23।


यह लेख शुरू में ML@CMU ब्लॉग पर प्रकाशित किया गया था और यह लेखक की अनुमति के साथ यहां दिखाई देता है।

टैग जीएस: डीप डाइव डाइव


Ml @cmu

Scroll to Top