रिकू अर्कवा द्वारा
टीएल; DR: स्मैशलैब में, हम एक बुद्धिमान सहायक बना रहे हैं जो खाना पकाने और DIY जैसे शारीरिक कार्यों का समर्थन करने के लिए स्मार्टवॉच में सेंसर का उपयोग करता है। यह ब्लॉग पोस्ट पता चलता है कि हम अपने दैनिक जीवन में कार्य निष्पादन के लिए सहायक, संदर्भ-विग इंटरैक्शन को सक्षम करने के लिए कैमरे के साथ कम घुसपैठ दृश्य समझ का उपयोग कैसे करते हैं।
बस डिजिटल दुनिया के कार्यों के लिए एआई सहायकों के बारे में सोच रहे हैं? हर दिन, हम कई कार्य करते हैं, जिसमें खाना पकाने, क्राफ्टिंग और मेडिकल सेल्फ-केयर (जैसे कि कोविड -19 सेल्फ-टेस्ट किट) शामिल हैं, जिसमें विभिन्न चरणों की एक श्रृंखला भी शामिल है। सभी चरणों को सही ढंग से चलाना मुश्किल हो सकता है; जब हम एक नया नुस्खा आजमाते हैं, उदाहरण के लिए, हमारे पास किसी भी कदम पर प्रश्न हो सकते हैं और महत्वपूर्ण कदमों को छोड़कर या गलत क्रम में गलतियाँ कर सकते हैं।
परियोजना, सेंसिंग मॉड्यूल (प्रिज्म) से कार्रवाई की बातचीतइसका उद्देश्य संवाद -आधारित इंटरैक्शन के माध्यम से ऐसे कार्यों को लागू करने में उपयोगकर्ताओं का समर्थन करना है। कैमरा, स्मार्टवॉच और एक गोपनीयता-संरक्षित परिवेश सेंसर जैसे डॉपलर रडार जैसे सेंसर का उपयोग करना, प्रासंगिक उपयोगकर्ता के संदर्भ (वे कार्य में क्या कर रहे हैं) का अनुमान लगा सकते हैं और संदर्भ-आधारित सहायता प्रदान कर सकते हैं।

इंसानों की तरह मदद प्राप्त करने के लिए, हमें कई बातों पर विचार करना चाहिए: एजेंट उपयोगकर्ता के संदर्भ को कैसे समझता है? उस उपयोगकर्ता के सहज प्रश्न कैसे प्रतिक्रिया करनी चाहिए? उसे सक्रिय रूप से हस्तक्षेप करने का फैसला कब करना चाहिए? और सबसे महत्वपूर्ण बात यह है कि मानव उपयोगकर्ता और एआई सहायक दोनों रोजमर्रा की बातचीत से कैसे विकसित होते हैं?
जबकि विभिन्न सेंसिंग प्लेटफॉर्म (जैसे, कैमरा, नेता, डॉपलर रडार, आदि) का उपयोग हमारी संरचना में किया जा सकता है, हम निम्नलिखित में स्मार्टवॉच आधारित गौण पर ध्यान केंद्रित करते हैं। स्मार्टवॉच को अपनी सर्वव्यापकता, कैमरा एमईआरए-आधारित प्रणालियों की तुलना में न्यूनतम गोपनीयता चिंताओं और विभिन्न दैनिक गतिविधियों में उपयोगकर्ता की निगरानी करने की क्षमता के लिए चुना जाता है।
मल्टीमॉडल सेंसिंग के साथ उपयोगकर्ता क्रियाओं को ट्रैक करना

मानव गतिविधि की मान्यता (एचआर) सेंसर से उपयोगकर्ता गतिविधि संदर्भों की पहचान करने की एक तकनीक है। उदाहरण के लिए, स्मार्टवॉच में हाथ धोने और काटने जैसे विभिन्न दैनिक गतिविधियों को खोजने के लिए मोशन और ऑडियो डीईओ सेंसर है (1)। हालांकि, सीएस के बाहर, शोर डेटा और कम-डिस्टिंक्टेड कार्यों के साथ संघर्ष होता है जो अक्सर दैनिक जीवन के कार्यों का हिस्सा होते हैं।
प्रिज्म-ट्रैकर (imwut’22) (2) राज्य संक्रमण जानकारी जोड़कर ट्रैकिंग में सुधार करता है, अर्थात्, उपयोगकर्ता एक कदम से दूसरे चरण में कैसे संक्रमण करते हैं और प्रत्येक चरण पर आमतौर पर कितना समय बिताते हैं। ट्रैकर हर पूर्वानुमान को फ्रेम-बाय-फ्रेम को स्थिर करने के लिए अनुभवी एल्गोरिथ्म (3) के एक विस्तृत संस्करण का उपयोग करता है।

जैसा कि उपरोक्त आंकड़े में दिखाया गया है, उपस्थिति फ्रेम-दर-फ्रेम ट्रैकिंग की सटीकता में सुधार करता है। फिर भी, समग्र सटीकता लगभग 50-60%है, जो कि फ्रेम स्तर पर राज्य को निश्चित रूप से ट्रैक बनाने के लिए स्मार्टवॉच का उपयोग करने की चुनौती को उजागर करता है। फिर भी, हम इस अपूर्ण सनसनी से सहायक इंटरैक्शन विकसित कर सकते हैं।
उपयोगकर्ता अनिश्चित प्रश्नों का उत्तर दें
वॉयस असिस्टेंट (जैसे कि सिरी और अमेज़ॅन अलेक्जज़ा), विभिन्न भौतिक कार्यों के दौरान उपयोगकर्ता के सवालों के जवाब देने में सक्षम, ने जटिल प्रक्रियाओं के माध्यम से उपयोगकर्ताओं को मार्गदर्शन करने का वादा दिखाया है। तथापि, चुनौतीपूर्ण उपयोगकर्ताओं को अपने सवालों को स्पष्ट रूप से स्पष्ट करने के लिए चुनौतीपूर्ण महसूस करेंखासकर जब एक निश्चित शब्दावली से अनजान हो। हमारा प्रिज्म-क्यू और ए (imwut’24) ()) ऐसे मुद्दों को एक संदर्भ के साथ हल कर सकता है जो उत्पन्न होता है उपस्थिति।

जब एक प्रश्न पूछा जाता है, “मुझे इसके साथ आगे क्या करना चाहिए?” यहां तक कि स्वाभाविक रूप से अस्पष्ट प्रश्नों के मामले में, क्या बड़ी भाषा के मॉडल डेलो (एलएलएम) के लिए संवेदना की संदर्भित जानकारी है, प्रतिक्रिया का उत्पादन करने के लिए उपयोग किए जाने वाले त्वरित संदर्भ के हिस्से के रूप में? और “क्या मुझे एक कदम याद आया?” हमारे अध्ययनों ने जवाब दिया और कई कार्यों में मौजूदा आवाज के मुद्दों की तुलना में उपयोगकर्ता अनुभव के जवाब में बेहतर सटीकता दिखाया: खाना पकाने, देर से बनाना और त्वचा की देखभाल।
कारण उपस्थिति गलतियाँ, आउटपुट कर सकते हैं प्रिज्म-क्यू और ए गलत भी हो सकता है। इस प्रकार, यदि सहायक संदर्भ सूचना का उपयोग करता है, तो सहायक उपयोगकर्ता के जवाब में संदर्भ की अपनी वर्तमान समझ की विशेषता है, उदाहरण के लिए, “यदि आप हैं अपने हाथ धोएंफिर अगला कदम है सब्जियों को काट देनाBles। “इस तरह, यह उपयोगकर्ताओं को त्रुटि की पहचान करने में मदद करने की कोशिश करता है और वांछित उत्तर प्राप्त करने के लिए इसे इंटरैक्टिव में जल्दी से सुधारने में मदद करता है।
त्रुटियों को रोकने के लिए उपयोगकर्ताओं के साथ सक्रिय रूप से हस्तक्षेप करना
अगला, हम त्रुटियों को रोकने के लिए सक्रिय हस्तक्षेप को शामिल करके सहायक की क्षमता का विस्तार करते हैं। तकनीकी चुनौतियों में वॉयस और यूजर बिहेवियर में डेटा सेंसिंग में अनिश्चितताएं शामिल हैं, खासकर क्योंकि उपयोगकर्ताओं को कार्यों को पूरा करने के लिए कदम रखने की अनुमति दी जाती है। इन चुनौतियों को पार करने के लिए, PRISM-OBZARVER (UIST’24) ()) अनिश्चितताओं पर विचार करने और वास्तविक समय में अनुस्मारक देने के लिए सबसे अच्छा समय निर्धारित करने के लिए एक स्टोकस्टिक मॉडल का उपयोग करता है।

गंभीर रूप से, सहायक कठोर, पूर्वनिर्धारित चरण-दर-चरण अनुक्रम को लागू नहीं करता है; इसके बजाय, यह उपयोगकर्ता के व्यवहार की निगरानी करता है और जरूरत पड़ने पर सक्रिय रूप से हस्तक्षेप करता है। यह दृष्टिकोण उपयोगकर्ता की स्वायत्तता और सक्रिय मार्गदर्शन को संतुलित करता है, जिससे व्यक्तियों को आवश्यक कार्यों को सुरक्षित और सटीक रूप से करने में सक्षम बनाया जाता है।
भविष्य की दिशाएं
हमारी सहायक प्रणाली को अभी रोल किया गया है, और भविष्य का काम अभी भी क्षितिज पर है।
डेटा संग्रह प्रयासों को कम करना
स्मार्टवॉच पर अंतर्निहित मानव गतिविधि सत्यापन मॉडल को प्रशिक्षित करने और एक संक्रमण ग्राफ बनाने के लिए, हम वर्तमान में प्रत्येक चरण के लेबल के साथ 10 से 20 सत्रों का प्रबंधन करते हैं। विभिन्न दैनिक कार्यों का प्रबंधन करने के लिए सहायक को स्केल करने के लिए शून्य-शॉट टीओटी मल्टीमॉडल गतिविधि मान्यता मॉडल और शोधन कदम की आवश्यकता होती है।
उपयोगकर्ता और एआई सहायक की सह-बवन

भविष्य के कार्य के रूप में, हम पोस्ट -ओपेरा -इन -सिन्किन कैंसर के रोगियों और मनोभ्रंश की दैनिक देखभाल का समर्थन करने के लिए स्वास्थ्य सेवा सेटिंग्स में अपने सहायकों को तैनात करने के लिए उत्साहित हैं।
मेक ()) ने एक विचार प्रस्तुत किया मानव कंप्यूटर भागीदारीजहां मानव और बुद्धिमान एजेंट अकेले काम करने के लिए आगे बढ़ने के लिए सहयोग करते हैं। लेकिन पारस्परिक सह-बधाई ()) उपयोगकर्ता और सिस्टम दोनों विशिष्ट लक्ष्यों को प्राप्त करने के लिए दूसरों के व्यवहार को संदर्भित करते हैं और प्रभावित करते हैं। इन विचारों से प्रेरित होकर, हम सक्रिय रूप से तैनाती के बाद बातचीत के माध्यम से अपने सहायक को अच्छी तरह से ट्यूनिंग करने के तरीकों की खोज कर रहे हैं। यह संदर्भ की समझ को बेहतर बनाने और एक आरामदायक नियंत्रण संतुलन खोजने में मदद करता है खोज करके इंटरैक्शन डिजाइन (8)।
अंत
कई खुले प्रश्न हैं जब यह सहायकों को शारीरिक कार्यों के लिए सही बनाने की बात आती है। इन कार्यों के दौरान उपयोगकर्ता के संदर्भ को समझना विशेष रूप से सेंसर शोर जैसे कारकों के कारण चुनौतीपूर्ण है। हमारे द्वारा पीआर परियोजना, हमारा लक्ष्य हस्तक्षेपों को डिजाइन करके और मानव-एआई सहयोग की रणनीति विकसित करके इन चुनौतियों को समाप्त करना है। हमारा लक्ष्य अधूरा संवेदनाओं का सामना करके भी सहायक और विश्वसनीय इंटरैक्शन बनाना है।
हमारे कोड और डेटासेट GITHB में उपलब्ध हैं। हम इस रोमांचक अनुसंधान क्षेत्र में सक्रिय रूप से काम कर रहे हैं। यदि आप रुचि रखते हैं, तो कृपया रिकू अर्कवा (एचसीआईआई पीएचडी छात्र) से संपर्क करें।
पावती
लेखक ने परियोजना के हर सहयोगी को धन्यवाद दिया। स्वास्थ्य कार्यक्रमों के लिए प्रिज्म सहायक का विकास विश्वविद्यालय के अस्पतालों के विश्वविद्यालय के अस्पतालों के सहयोग से है और फ्रैंथोफर पुर्तगाल ICOS।
प्रसंग
। समोसा: गति और उप -ऑडियो देओ के साथ संवेदी गतिविधियाँ। इंटरैक्टिव, मोबाइल, युद्ध योग्य और यूटुइजिव टेक्नोलॉजी पर एसीएम की प्रक्रिया, 6(३), १-१९।
(२) अर्कवा, आर।, याकुरा, एच।, मोलिन, वी। PRISM-TRACKER: मल्टीमॉडल प्रोसेस के लिए एक संरचना जो युद्ध योग्य सेंसर और राज्य संक्रमण की जानकारी का उपयोग करके त्रुटियों और अनिश्चितता के उपयोगकर्ता-संचालित हैंडलिंग के साथ ट्रैकिंग है। इंटरैक्टिव, मोबाइल, युद्ध योग्य और यूटुइजिव टेक्नोलॉजी पर एसीएम की प्रक्रिया, 6(4), 1-27।
()) FORNIE, GD (1973)। अनुभवी एल्गोरिथ्म। IEEE की कार्रवाई, 61(3), 268-278।
()) अर्कवा, आर।, लेहमैन, जे.एफ. और गोएल, एम। (२०२४) “प्रिज्म-क्यू और ए: मल्टीमॉडल प्रोसेस ट्रैकिंग और स्टेप-वॉयस, बड़ी भाषा के मॉडल डेलो द्वारा सक्षम स्मार्टवॉच पर सहायक है।” इंटरएक्टिव, मोबाइल, युद्ध योग्य और यूटुइजिव टेक्नोलॉजी पर एसीएम प्रक्रियाएं, 8(४), १-२६।
(५) अर्कवा, आर।, याकुरा, एच।, और गोएल, एम। (२०२४, अक्टूबर कतबर)। PRISM-OBSERVER: हस्तक्षेप एजेंट उपयोगकर्ताओं को स्मार्टवॉच का उपयोग करके उपयोगकर्ताओं को संसाधित करने में मदद करने के लिए। में उपयोगकर्ता इंटरफ़ेस एस सॉफ्टवेयर एफटीवेयर और प्रौद्योगिकी पर 37 वें वार्षिक एसीएम संगोष्ठी की प्रक्रिया (पी। 1-16)।
(६) मैकके, हम (२०२३, नवंबर) एक मानव-कंप्यूटर साझेदारी बनाते हैं। में कंप्यूटर-मानव इंटरैक्शन रिसर्च एंड ऐप्स पर इंटरनेशनल काउंसिल (पी। 3-17)। CHAM: स्प्रिंगर नेचर स्वित्ज़रल। और।
। बातचीत के सामान्य सिद्धांत। कंप्यूटर-मानव बातचीत पर एसीएम लेनदेन (टोची), 28 (6), 1-54।
(() एलन, जेई, गिनी, सीआई, और होरवेट्स, ई। (1999)। मिश्रित-प्रारंभिक बातचीत। IEEE इंटेलिजेंट सिस्टम और उनके एप्लिकेशन14 (5), 14-23।
यह लेख शुरू में ML@CMU ब्लॉग पर प्रकाशित किया गया था और यह लेखक की अनुमति के साथ यहां दिखाई देता है।
टैग जीएस: डीप डाइव डाइव
Ml @cmu