與當今的自動語音識別(ASR)系統一樣強大,該領域遠非“解決”。研究人員和從業人員正在努力應對許多挑戰,這些挑戰推動了ASR可以實現的界限。從提高實時功能到探索將ASR與其他模式結合在一起的混合方法,ASR中的下一波創新浪潮正在塑造與使我們在這裡的突破一樣具有變革性的變革性。
關鍵挑戰推動研究
- 低資源語言 儘管諸如Meta的MMS和Openai的Whisper之類的模型在多語言ASR方面取得了長足的進步,但世界上絕大多數語言(尤其是代表性不足的方言)使人服務不足。由於以下方式,很難為這些語言建造ASR:
- 缺乏標記的數據: 許多語言缺乏足夠規模的轉錄音頻數據集。
- 語音的複雜性: 某些語言是音調的或依靠微妙的韻律提示,使它們更難用標準的ASR方法進行建模。
- 現實世界嘈雜的環境 即使是最先進的ASR系統也可能在嘈雜或重疊的語音場景中掙扎,例如呼叫中心,現場活動或小組對話。應對諸如說話者診斷(誰說什麼)和噪音轉錄等挑戰仍然是一個很高的重中之重。
- 跨域的概括 當前的ASR系統通常需要針對特定領域的任務進行微調(例如,醫療保健,法律,教育)。實現概括(單個ASR系統在多種用例中都在沒有特定領域調整的情況下表現良好 – 是一個主要目標。
- 潛伏期與準確性 儘管實時ASR是現實,但延遲和準確性之間通常會取消權衡。達到低潛伏期和近乎完美的轉錄,尤其是在智能手機等資源受限設備中,仍然是一個技術障礙。
新興方法:即將到來?
為了應對這些挑戰,研究人員正在嘗試新穎的架構,跨模式整合以及將ASR超越傳統界限的混合方法。這是一些最令人興奮的方向:
- 端到端ASR + TTS系統 研究人員沒有將ASR和文本到語音(TTS)視為單獨的模塊,而是探索可以無縫抄錄和綜合語音的統一模型。這些系統使用語音和文本的共享表示形式,從而可以:
- 在單個培訓管道中學習雙向映射(語音到文本和文本到語音)。
- 通過利用語音綜合反饋循環來提高轉錄質量。例如,Meta的Spirit LM是朝這個方向邁出的一步,將ASR和TT結合到一個框架中,以保護跨模態的表現力和情感。這種方法可以通過使系統更自然,動態和表現力來徹底改變對話式AI。
- ASR編碼器 +語言模型解碼器 一個有希望的新趨勢是橋接ASR編碼與GPT這樣的預訓練的語言模型解碼器。在此架構中:
- ASR編碼器將原始音頻處理為豐富的潛在表示。
- 語言模型解碼器使用這些表示形式生成文本,利用上下文理解和世界知識。為了使該連接起作用,研究人員正在使用適配器 – 將編碼器的音頻嵌入與解碼器的基於文本的嵌入保持一致的燈重量模塊。這種方法可以:
- 通過結合語言背景來更好地處理模棱兩可的短語。
- 在嘈雜的環境中改善了魯棒性。
- 無縫集成與下游任務,例如摘要,翻譯或問答。
- 自我監督 +多模式學習 自我監督的學習(SSL)已經通過Wav2Vec 2.0和Hubert等模型改變了ASR。下一個前沿是在多模型模型中結合音頻,文本和視覺數據。
- 為什麼要多模式? 語音並非孤立地存在。整合視頻(例如唇部運動)或文本(例如字幕)的提示有助於更好地了解複雜的音頻環境。
- 行動中的示例:Spirit LM的語音和文本令牌的交織以及Google在多模式翻譯系統中與ASR進行的實驗顯示了這些方法的潛力。
- 域的適應性很少 很少有學習的學習旨在教ASR系統以僅使用少數示例來快速適應新任務或域。這種方法可以通過利用來減少對廣泛微調的依賴:
- 及時工程: 通過自然語言指示指導模型的行為。
- 元學習: 培訓系統以“學習如何學習”跨多個任務,從而提高對看不見的域的適應性。例如,ASR模型只能使用幾個標記的樣本來適應法律術語或醫療保健術語,從而使其對企業用例的用途更為多。
- 上下文化的ASR以更好地理解 當前的ASR系統通常會孤立地轉錄語音,而無需考慮更廣泛的對話或情境環境。為了解決這個問題,研究人員正在建立整合的系統:
- 記憶機制: 允許模型保留對話早期部分的信息。
- 外部知識庫: 使模型能夠實時參考特定事實或數據點(例如,在客戶支持電話中)。
- 邊緣設備輕量級型號 雖然Whisper或USM等大型ASR模型提供了令人難以置信的精度,但它們通常是資源密集的。為了將ASR帶到智能手機,物聯網設備和低資源環境中,研究人員正在使用以下方式開發輕量級模型:
- 量化: 壓縮模型以減小其尺寸而不犧牲性能。
- 蒸餾: 培訓較小的“學生”模型以模仿較大的“老師”模型。這些技術使得可以在邊緣設備上運行高質量的ASR,解鎖新應用程序,例如免提助手,設備轉錄和保護ASR。
ASR中的挑戰不僅是技術難題,而且是通往下一代對話AI的門戶。通過與其他技術(例如TTS,語言模型和多模式系統)橋接ASR,我們正在創建不僅了解我們所說的內容的系統 – 他們了解我們。
想像一個世界,您可以與了解您的意圖,語氣和背景的AI進行流暢的對話。語言障礙消失的地方,並且可訪問性工具變得如此自然,以至於他們感到看不見。這就是今天研究ASR突破的希望。
剛開始:ASR是創新的核心
我希望您能像我一樣發現ASR的這種探索。對我來說,這個領域無非是激動人心的 – 挑戰,突破以及應用程序的無盡可能性牢牢地坐在創新的最前沿。
隨著我們繼續建立一個以驚人的速度前進的代理商,機器人和AI驅動工具的世界,很明顯,對話性AI將是將我們與這些技術聯繫起來的主要接口。在該生態系統中,ASR是以算法為模型的最複雜和令人興奮的組件之一。
如果這個博客激發了一些好奇心,我鼓勵您深入研究。前往擁抱臉,嘗試一些開源模型,並看到ASR的魔力。無論您是研究人員,開發人員還是熱情的觀察者,都有很多值得愛的人,還有更多。
讓我們繼續支持這個令人難以置信的領域,希望您能繼續遵循其發展。畢竟,我們才剛剛開始。