此AI論文介紹了BD3-LMS:一種混合方法,結合了自回歸和擴散模型,可擴展和高效的文本生成

傳統語言模型依賴於自迴旋方法,這些方法依次生成文本,以犧牲緩慢的推理速度來確保高質量的輸出。相比之下,最初是為圖像和視頻生成開發的擴散模型,由於其潛在的生成和改善的可控性而引起了文本生成的關注。但是,現有的擴散模型在可能建模的固定長度約束和效率低下,限制了它們在生成柔性長度文本中的有效性。

語言建模的一個主要挑戰是平衡效率和質量。自回歸模型有效地捕獲了長期依賴性,但遭受了逐個標記的速度。擴散模型雖然有希望,但需要多個推理步驟,並且通常會生成固定長度的輸出。此限制使它們無法實現對可變長度序列的現實應用程序的實用性。該研究通過提出一種結合自回歸和擴散模型的優勢的方法來解決此問題,從而確保不損害靈活性的高效和高質量的文本生成。

當前方法主要涉及自回歸模型,該模型一次基於先前生成的令牌生成文本一個令牌。儘管這些模型具有高流利度和連貫性,但由於它們的順序處理性質,它們固有地慢了。基於擴散的方法已被探索為替代方法,並提供並行生成。但是,現有的擴散模型會產生固定長度序列,並且缺乏超越預定義環境的有效方法。儘管效率低下,但擴散模型中缺乏可擴展性導致持續依賴自回歸方法。

康奈爾理工大學和斯坦福大學的研究人員介紹了**塊離散denoising擴散語言模型(BD3-LMS)**,以克服這些限制。這種新的模型通過採用結構化方法來支持可變長度生成的同時維持推理效率,從而在自回歸和擴散模型之間進行了插值。 BD3-LMS使用鍵值緩存和平行令牌採樣來減少計算開銷。該模型採用專門的培訓算法設計,可通過定制的噪聲時間表最大程度地減少梯度差異,從而優化各種語言建模基準的性能。

BD3-LMS通過將文本生成構造成塊而不是單個令牌來運行。與傳統的自迴旋模型依次預測下一個代幣的傳統模型不同,BD3-LMS同時生成一塊令牌,從而顯著提高了效率。每個塊內基於擴散的降解過程可確保高質量的文本生成,同時保持連貫性。模型體系結構將變形金剛與一個障礙物的注意機制集成在一起,從而使每個塊在先前生成的塊上進行條件。這種方法增強了上下文相關性和流利性。培訓過程包括一個矢量化的實現,該實施可以實現並行計算,減少培訓時間和資源消耗。研究人員介紹了數據驅動的噪聲時間表,以穩定訓練並改善梯度估計,以解決擴散模型中的高方差問題。

BD3-LMS的績效評估表明,對現有離散擴散模型的實質性改進。該模型在基於擴散的語言模型之間達到了最新的困惑分數,同時可以生成任意長度序列。在對語言建模基准進行的實驗中,與以前的擴散模型相比,BD3-LMS的困惑最多可將困惑降低13%。在LM1B數據集上,BD3-LMS使用四個塊大小為4時,其困惑度為28.23,表現優於先前的型號,例如MDLM,其困惑為31.78。在OpenWebText上,BD3-LMS的困惑度為20.73,明顯好於其他離散擴散模型。此外,BD3-LMS生成的序列最多比傳統擴散方法生成的序列長10倍,顯示出卓越的可伸縮性。提出的模型還減少了推理所需的功能評估數量,從而提高了樣品效率和生成速度。

BD3-LMS的引入通過整合基於自回歸和基於擴散的方法來提高語言建模。通過解決與推理效率,可能性估計和序列靈活性有關的關鍵挑戰,該研究為文本生成提供了實用且可擴展的解決方案。 BD3-LMS提高了訓練穩定性和計算效率,提供了一個可以擴展到未來語言建模發展的框架。結果突出了BD3-LMS在彌合自回歸和基於擴散的方法之間差距的有效性,從而在文本生成的質量和速度之間提供了優化的平衡。


查看 論文,項目和GitHub頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數


Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。

PARLANT:使用LLMS💬💬(晉升)建立可靠的AI AI客戶面對面的代理商

Source link

Scroll to Top