聊天機器人參與,但不要交付
聊天機器人參與,但不要交付 引起人們對人工智能發展中差距擴大的關注:為吸引註意而不是解決問題而建立的系統。隨著凱文·西斯特羅姆(Kevin Systrom),埃隆·馬斯克(Elon Musk)和杰弗裡·欣頓(Geoffrey Hinton)等科技領導者的批評越來越擔心AI注意經濟正在誤導用戶並減少長期信任。儘管它們具有互動性吸引力,但許多生成的AI聊天機器人培養了參與度指標,這些指標傾向於花費時間,而不是真正的實用性,促使人們重新評估有意義的人類互動在高風險環境中的外觀,例如教育,工作和新聞業。
關鍵要點
- Kevin Systrom認為,儘管用戶參與度很高,但大多數AI聊天機器人都提供零實際實用程序。
- 諸如平台上的訂婚指標經常掩蓋真正的生產力或解決問題的結果。
- 領先的專家警告說,以娛樂為中心的AI可能會誤導用戶並侵蝕對AI系統的信任。
- 區分參與優點和公用事業優先的AI設計對於道德AI發展至關重要。
另請閱讀:AI對房主成本的隱藏影響
訂婚陷阱:AI作為娛樂
由Chatgpt和Bard等產品領導的生成AI聊天機器人的擴散引起了公眾的興趣。憑藉自然的對話和廣泛的一般知識,它們賦予了智力的外觀。但是,該設計在一個目標上已在很大程度上優化:保持用戶參與。
在這種情況下的參與是由以下指標量化的:
- 會話長度
- 交互深度(交換消息數)
- 用戶退貨率
- 點擊率在AI生成的建議上
這款公制驅動的設計大量模仿了社交媒體平台,較高的參與度為廣告收入和品牌粘性增添了。 Instagram的聯合創始人兼現在的Artifact首席執行官Kevin Systrom標記了這種方法從根本上有缺陷的信息工具。他說:“這些聊天機器人的效用是零。”他建議用戶可以娛樂,但走開誤導或無生產力。
另請閱讀:聊天機器人開發的未來:觀看的趨勢
凱文·西斯特羅姆(Kevin Systrom)
Artifact是一個植根於AI的新聞推薦應用程序,它是Systrom對他認為濫用AI潛力的回應。人工製品使用旨在準確性和相關性的ML算法過濾了高質量的新聞,而不是針對點擊誘餌或新穎性進行優化。這種方法在收到用戶對對話進行策劃的積極反饋的同時,與生成聊天機器人的病毒成功形成鮮明對比。
Systrom的敏銳批評加入了技術人員之間更廣泛的呼籲,以重新確定AI設計。在他看來,真正的實用程序能夠準確回答問題,合成基於源的內容並支持用戶目標的能力定義成功,而不是上癮的對話循環。
專家警告:信任和錯誤信息
對聊天機器人實用程序的擔憂並不新鮮。杰弗裡·欣頓(Geoffrey Hinton)被稱為“ AI的教父”,他於2023年離開Google,因為擔心AI會放大錯誤信息。查普曼大學(Chapman University)的2023年公共信任調查發現,有45%的受訪者比搜索引擎少信任聊天機器人,理由是事實錯誤和含糊的回應是主要問題。
埃隆·馬斯克(Elon Musk)同樣警告說,以參與為中心的AI模型可能“操縱用戶”或“增強有害行為”。馬斯克和欣頓都認為,對話性可信度不應與事實準確性相混淆。當聊天機器人“幻覺”以合理的語言製造答案時,他們冒著誤導甚至有知情用戶的誤導。
這會產生一個危險的反饋循環:用戶與AI進行娛樂的互動越多,這些模型的投機性或誇張的響應對算法的回報就越多。信任一旦受到侵蝕,就很難重建。
另請閱讀:我們如何使聊天機器人智能?
訂婚與實用程序:並排比較
為了強調以參與驅動的和公用事業 – 首先AI之間的實際差異,請考慮以下兩個聊天機器人體驗:
特徵 | 訂婚優先聊天機器人(例如,chatgpt-3.5) | 公用事業 – 優先聊天機器人(例如,Github Copilot,困惑AI) |
---|---|---|
響應樣式 | 對話,通常是冗長的 | 簡潔,特定於任務 |
準確性驗證 | 有限或沒有引用來源 | 引用的消息來源;可驗證的引用 |
用戶目標對齊 | 優化以繼續聊天 | 優化以完成任務 |
學習結果 | 可變和軼事 | 結構化,基於知識 |
這種對比表明,儘管傳統的聊天機器人可能在隨意的對話中給人留下深刻的印象,但在應用於需要精確度的領域(例如法律研究,編碼或財務分析)時,它們通常不足。
業務激勵困境
為什麼主要的科技公司繼續建立參與度的聊天機器人?答案在於貨幣化。與廣告生態系統集成的AI模型直接受益於長期用戶互動。例如,微軟在Bing中使用生成AI的使用,每個用戶的查詢會增加增加,但這也為合作夥伴創建了新的廣告清單。
在這種景觀中,真正的實用性成為次要問題。快速解決用戶的問題實際上可能會減少參與時間,這意味著減少收入。這種激勵措施的錯位解釋了為什麼旨在優先考慮用戶成功成果的工件的公司仍然是例外,而不是規則。
聊天機器人既吸引人又有用?
有新興的研究和產品創新試圖彌合鴻溝。一項2024年的斯坦福HCI研究分析了100,000個聊天機器人驅動的任務的用戶滿意度。調查結果顯示混合模型提供了引用的信息和對話ux產生 提高任務成功率28% 比純粹的基於語言模型的聊天機器人。
值得注意的是,出於這個原因,諸如困惑AI之類的工具(使人引用和文檔上傳)正在吸引研究人員和學生之間的吸引力。他們表明,AI系統不需要為實用程序犧牲參與度,但同時需要仔細的設計,透明的數據採購和對齊業務模型。
實用提示:如何發現公用事業驅動的AI
對於專業人士,教育者和消費者而言,認識到真正有用的AI工具至關重要。以下是一些評估的特徵:
- 來源引用: 聊天機器人是否提供其主張的鏈接或參考?
- 任務對齊: 輸出是否與您的實際目標保持一致(例如,解決問題,完成工作)?
- 可重複性: 可以遵循,測試或驗證信息或解決方案嗎?
- 干擾水平: 聊天機器人是否提供娛樂切線或保持專注?
選擇優先考慮對用戶成功而不是屏幕時間的AI可以提高生產率,並降低被獎勵驅動的機器模式操縱的風險。
結論:為未來重新標準AI基準
AI聊天機器人開發的當前狀態揭示了一個偏斜的價值系統。當通過用戶參與而不是實用程序來衡量成功時,即使是令人印象深刻的系統也可以分心而不是工具。正如凱文·西斯特羅姆(Kevin Systrom)和其他領導者迴盪時,現在該轉向幫助用戶的模型 做 更多,而不僅僅是 停留 更長。這個樞軸需要重新設計激勵措施,重新思考基準測試,最重要的是將用戶結果置於AI設計的中心。
參考
Brynjolfsson,Erik和Andrew McAfee。 第二個機器時代:在精彩技術時期的工作,進步和繁榮。 WW Norton&Company,2016年。
馬庫斯,加里和歐內斯特·戴維斯。 重新啟動AI:建立人工智能我們可以信任。 Vintage,2019年。
羅素,斯圖爾特。 人類兼容:人工智能和控制問題。維京,2019年。
韋伯,艾米。 大九人:科技泰坦和他們的思維機器如何扭曲人類。 PublicAffairs,2019年。
丹尼爾·克雷維爾(Crevier)。 AI:尋找人工智能的動盪歷史。基本書籍,1993年。