語音到語音基礎模型為無縫的多語言互動鋪平了道路

在NVIDIA GTC25,GNANI.AI專家在語音AI中推出了突破性的進步,重點是語音到語音基礎模型的發展和部署。這種創新的方法有望克服傳統的級聯聲音AI體系結構的局限性,並在一個無縫,多語言和情感意識到的聲音互動的時代迎來了。

級聯建築的局限性

當前的最新架構為語音代理提供動力,涉及三階段的管道:語音到文本(STT),大語言模型(LLMS)和文本到語音(TTS)。雖然有效,但這種級聯的體系結構遭受了重大缺點,主要是延遲和錯誤傳播。級聯體系結構中有多個塊,每個塊將增加其自己的延遲。這些階段的累積延遲範圍從2.5到3秒不等,導致用戶體驗差。此外,在Stt階段中引入的錯誤通過管道傳播,複雜的不准確性。這種傳統的建築也失去了關鍵的副語言特徵,例如情感,情感和語氣,從而產生單調和情感平坦的反應。

介紹語音到語音基礎模型

為了解決這些局限性,Gnani.ai提出了一種新穎的語音到語音基礎模型。該模型直接處理和生成音頻,消除了對中間文本表示的需求。關鍵創新在於培訓一個大規模的音頻編碼器,其中150萬小時的14種語言標記數據,從而捕捉情感,同理心和音調的細微差別。該模型採用嵌套的XL編碼器,帶有綜合數據的重新培訓,以及一個輸入音頻投影儀層將音頻功能映射到文本嵌入中。對於實時流媒體,音頻和文本功能交錯,而非流式用例則使用嵌入合併層。最初基於Llama 8B的LLM層擴展到包括14種語言,需要重建Tokenizers。輸出投影儀模型生成MEL頻譜圖,從而創建超個性化的聲音。

關鍵好處和技術障礙

語音到語音模型提供了一些重要的好處。首先,對於第一個令牌輸出,它大大降低了延遲,從2秒鐘從2秒移至約850-900毫秒。其次,它通過將ASR與LLM層融合來提高準確性,從而提高性能,尤其是在短語音和長時間的演講中。第三,該模型通過捕獲和建模語調,壓力和語音速度來實現情感意識。第四,它可以通過上下文意識來改善中斷處理,從而促進更自然的互動。最後,該模型旨在有效處理低帶寬音頻,這對於電話網絡至關重要。構建該模型提出了幾個挑戰,特別是巨大的數據要求。該團隊與400萬用戶創建了一個眾包系統,以生成情感豐富的對話數據。他們還利用基礎模型來生成合成數據,並在1350萬小時的公開數據中進行了培訓。最終模型包括90億個參數模型,音頻輸入為6.36億,LLM的80億,TTS系統的3億。

NVIDIA在發展中的作用

該模型的開發在很大程度上依賴於NVIDIA堆棧。 NVIDIA NEMO用於訓練編碼器模型,Nemo策展人促進了合成文本數據生成。 NVIDIA EVA被用來生成音頻對,將專有信息與合成數據相結合。

用例

Gnani.ai展示了兩個主要用例:實時語言翻譯和客戶支持。實時語言翻譯演示具有AI引擎,以促進英語代理商與講法語客戶之間的對話。客戶支持演示強調了該模型處理跨語言對話,中斷和情感細微差別的能力。

語音到語音基礎模型

語音到語音基礎模型代表了語音AI中的重大飛躍。通過消除傳統體系結構的局限性,該模型可以使更自然,高效和情感意識的聲音互動。隨著技術的不斷發展,它有望將各種行業從客戶服務轉變為全球溝通。


讓·馬克(Jean-Marc)是一位成功的AI業務主管。他領導並加速了AI Power的解決方案的增長,並於2006年創立了一家計算機視覺公司。他是AI會議的公認發言人,並擁有斯坦福大學的MBA學位。

Source link

Dr. Ashish V

Dr. Ashish V

Leave a Replay

About Me

I am a Ph.D. holder and a dedicated blogger with a focus on Artificial Intelligence, technology education, and emerging tech challenges. With a strong academic foundation and extensive research experience, I am committed to delivering insightful content that bridges the gap between cutting-edge technology and practical understanding. My writing explores the latest advancements in AI, addresses critical tech issues, and provides in-depth analysis to keep readers informed and empowered in the rapidly evolving digital landscape.

Recent Posts

Scroll to Top