如今,搜索引擎和推薦系統在在線內容平台中至關重要。傳統的搜索方法著眼於文本內容,在處理插圖的文本和視頻中造成了關鍵的差距,這些差距已成為用戶生成內容(UGC)社區的關鍵組成部分。當前用於搜索和建議任務的數據集包含文本信息或統計密集的功能,嚴重限制了有效的多模式搜索和建議(S&R)服務的開發。此外,會話級信號包含有關重新制定行為,重新審視行為,搜索意圖和搜索和建議功能之間直接影響用戶滿意度和保留的推薦功能之間的過渡模式的有價值的上下文信息。
現有的方法試圖解決多模式檢索挑戰。表示基於學習的方法將圖像映射到使用哈希功能的二進制錘子空間中,或將其編碼為具有深神經網絡的潛在語義空間。哈希感知方法可提供有效的實時性能,而基於語義的方法則集中於模態理解和跨模式匹配。此外,用於搜索,建議和S&R任務的數據集僅包含文本內容或基於價值的功能。雖然某些電子商務數據集包括用於多模式檢索的產品標題和圖像以及諸如Uniir和Flickr30k(例如Uniir和Flickr30k)的專業數據集,但這些解決了具有清晰意圖而不是複雜的用戶信息需求的Factoid查詢。
Xiaohongshu Inc.和Tsinghua University的研究人員提出了Qilin,這是一種多模式信息檢索數據集,旨在滿足不斷增長的更好的S&R服務需求。該數據集是從Xiaohongshu收集的,該數據集收集到一個受歡迎的社交平台,平均每月活躍的用戶超過70%,平均搜索率超過70%,提供了一系列具有異構結果的用戶會議,包括圖像文本註釋,視頻筆記,商業筆記和直接答案。此外,Qilin包括廣泛的應用程序級上下文信號和真正的用戶反饋,以更好地建模用戶滿意度並支持分析異質用戶行為的分析。它獨特包含用戶最喜歡的答案及其引用的結果,用於觸發深度查詢答案(DQA)模塊的搜索請求。
Qilin的數據集構造遵循的管道包括由用戶採樣,前端日誌加入,功能收集和數據過濾組成。該數據集包括來自15,482位用戶的應用程序級會話,比現有的搜索和推薦數據集(如亞馬遜,JD Search和Kuaisar)更大,更多樣化。雖然亞馬遜可以在研究多模式S&R系統方面略微採用,但它僅提供源自產品元數據的偽查詢,缺乏真正的用戶搜索行為。 JD Search和Kuaisar僅提供匿名項目內容,從而使模型有效性解釋變得困難。 Qilin使用Xiaohongshu的開放社區平台(具有豐富的UGC)來解決這些限制。徹底過濾後,數據集包括原始音符內容(標題 +主體 +圖像),以確保完整性和真實性。
搜索和推薦任務的結果表明,Bert交叉編碼器的表現優於雙重編碼器,從而確認明確的查詢和文檔互動可以增強相關性匹配。視覺模型(VLM)通過合併視覺信息實現更好的性能。 DCN-V2結合了用戶歷史記錄,基於ID的稀疏功能,密集的功能和預訓練的語義嵌入,在搜索排名中表現最好。但是,其優勢在推薦任務中較小,原因有兩個:建議中使用的偽查詢總結用戶偏好,並且建議需要更大的模型魯棒性才能解決分佈式問題。 DCN-V2對稀疏特徵的依賴性和語義信號匹配的有限建模可能會導致此性能差距。
總之,研究人員介紹了Qilin,Qilin是一種用於搜索和推薦研究的多模式信息檢索數據集。它包括來自15,482位用戶的應用程序級會話,它為異構結果提供了文本和圖像內容,並解決了現有數據集中的關鍵差距。研究人員收集了豐富的上下文信號,包括查詢源,多種用戶反饋類型和深度查詢答案(DQA)詳細信息,創建了一個綜合框架,用於調查各種信息檢索任務。搜索,建議和深度查詢回答的初步實驗顯示其多功能性和潛在應用。這些發現和見解為開發更先進的多模式檢索系統提供了寶貴的方向。
查看 擁抱臉的紙和數據集。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)