嵌入模型的最新進展重點是轉換通用文本表示形式,例如語義相似性,聚類和分類等不同應用。傳統的嵌入模型,例如通用句子編碼器和句子-T5,旨在提供通用的文本表示,但最近的研究突出了它們在概括中的局限性。因此,集成LLM已通過兩種主要方法徹底改變了嵌入模型開發:通過合成數據生成和硬採礦改善培訓數據集,並利用預先培訓的LLM參數進行初始化。這些方法顯著增強了嵌入質量和下游任務性能,但增加了計算成本。
最近的研究還探索了適應預先訓練的LLM來嵌入任務。 Sonion-Bert,DPR和Contriever證明了對比度學習和語言敏銳的培訓的好處,以嵌入質量。最近,從LLM主鏈(例如GPT-3和Mistral)最初啟動的E5-組合和LABSE等模型表現優於傳統的BERT和基於T5的嵌入。儘管它們取得了成功,但這些模型通常需要大型內域數據集,從而導致過度擬合。 MTEB之類的努力旨在基準跨越各種任務和領域的模型,從而在未來的研究中促進更強大的概括能力。
Google的雙子座嵌入團隊介紹了Gemini Embedding,這是一種最先進的模型,生成了高度可普遍的文本表示。它建立在Google強大的雙子座大語言模型上,它利用多語言和代碼理解能力來增強跨越不同任務(例如檢索和語義相似性)的嵌入質量。該模型是使用高質量的異質數據集培訓的,該數據集策劃了雙子座的過濾,選擇正/負段落以及生成合成數據。雙子座嵌入的雙子座通過對比度學習和微調來實現大量多語言文本嵌入基準(MMTEB)的最新性能,超過了多語言,英語和代碼基準的先前模型。
雙子座嵌入模型建立在雙子座的廣泛知識上,以生成諸如檢索,分類和排名之類的任務的表示。它完善了雙子座的初始化參數,並採用合併策略來創建緊湊的嵌入。該模型是使用隔離式負面負面負面質量對抗性估計(NCE)損失訓練的,而多損失方法則適用於子維度之間的嵌入。培訓過程包括一條兩階段的管道:大型數據集中的預處理以及對不同任務進行微調。此外,模型結合增強了概括。雙子座還有助於綜合數據生成,過濾和硬性挖掘,以完善模型在多語言和檢索任務中的性能。
跨多個基準測試評估了雙子座嵌入模型,包括多語言,英語和基於代碼的任務,涵蓋了250多種語言。它表現出了出色的分類,聚類和檢索性能,始終超過其他領先模型。該模型基於Borda分數獲得最高的排名,並且在跨語性檢索任務中表現出色。此外,即使排除了某些任務,它在與代碼相關的評估方面的表現都優於競爭對手。這些結果突出了雙子座嵌入為高效的多語言嵌入模型,能夠在各種語言和技術挑戰中提供最先進的性能。
總之,雙子座嵌入模型是一種穩健的多語言嵌入解決方案,在各種任務中都表現出色,包括分類,檢索,聚類和排名。即使對僅英文數據進行培訓,它也表現出強烈的概括,在多語言基准上的其他模型都優於其他模型。為了提高質量,該模型從合成數據生成,數據集過濾和硬採礦中受益。未來的工作旨在將其功能擴展到多模式嵌入,集成文本,圖像,視頻和音頻。對大規模多語言基準測試的評估證實了它的優勢,使其成為研究人員和開發人員尋求高效,高性能嵌入的強大工具。
查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 Meet Parlant:LLM優先的對話AI框架,旨在為開發人員提供對AI客戶服務代理商所需的控制和精確度,並利用行為指南和運行時監督。 🔧🎛️它是使用Python和TypeScript📦中易於使用的CLI📟和本機客戶sdks操作的。

Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。
PARLANT:使用LLMS💬💬(晉升)建立可靠的AI AI客戶面對面的代理商