在數字通信的快速發展的領域中,傳統的文本到語音(TTS)系統經常努力捕捉到人類的情感和細微差別的全部範圍。傳統的系統傾向於以平坦,不變的語氣“閱讀”文本,缺少使人類言語如此引人入勝的微妙的變化和情感提示。這一短缺對開發人員和內容創作者都構成了挑戰,他們試圖以真正引起聽眾共鳴的方式傳遞信息。需要一個可以解釋上下文和情感的TTS系統(而不是簡單地將文本轉換為語音 – 已經很清楚了,這為新的語音綜合方法鋪平了道路。
休ume的八度TTS代表了文本到語音領域中的進步。與早期產生語音的早期模型不同,八度旨在了解其處理文本背後的上下文。這不僅是關於單詞向聲音的字面conversion依。這是關於傳達意義,情感和風格的微妙之處。無論是一段文字都需要諷刺,柔和的耳語還是牢固的聲明,八度音階都可以調整其輸出以更好地反映預期的音調。這種功能可以生成定制的自定義AI聲音,這些聲音適合各種場景,從簡單的敘述到更具角色驅動的講故事。
技術細節
Octave TTS建立在已經過專門培訓語音合成的最先進的大語言模型(LLM)上。該技術基礎使該系統不僅可以預測應說出的單詞,還可以預測它們應如何交付,考慮到節奏,音色和節奏。八度的值得注意的特徵之一是其“語音設計”功能。使用此工具,用戶可以提供一個簡單的腳本,甚至只是描述性提示,以生成適合特定角色或角色的語音。例如,人們可能會要求一個讓人想起患者輔導員或更自信的敘述者的聲音,並相應地適應八度。
除了語音設計外,Octave還提供“表演說明”,使用戶可以微調語音段的情感傳遞。一行可以用多種樣式呈現(換句話說,平靜甚至不屑一顧),對所給出的指示進行了努力。這種靈活性擴展了八度TT的實際實用性,使其適用於教育,娛樂和客戶服務等各個領域。展望未來,休ume的團隊還準備引入語音克隆功能,這將僅使用簡短的音頻示例複製特定的語音。
數據見解和比較評估
八度TT的開發和評估是針對技術優點和實際應用的。在一項涉及180個人類評估者的內部研究中,將八度的八度與TTS領域的既定競爭者進行了比較。參與者根據音頻質量,自然性和忠誠度評估了語音樣本,以在120個不同的提示中提供的語音描述。研究結果表明,在大約71.6%的試驗中,八度是優選的音頻質量,大約51.7%的案例中的自然性,並且在大約57.7%的評估中匹配了預期的描述。
這些結果表明,八度不僅會產生清晰而愉快的音頻,而且還可以更好地與用戶的風格和情感期望保持一致。與這些內部測試同時,休ume推出了富有表現力的TTS競技場,這是一項公共計劃,旨在促進對錶達性語音綜合的更廣泛評估。該平台邀請社區使用更長,更細微的文本樣本進行測試和比較各種TTS系統,從而幫助完善了八度的模型的性能。

結論
休ume的八度TTS通過專注於語音生成的上下文,情感和靈活性,從而對傳統的文本到語音系統進行了周到的改進。它解釋和提供微妙的情感線索的能力使其具有更自然而引人入勝的聽覺體驗,使其成為各種應用程序的有用工具。基於高級大語言模型的八度音階的技術基礎可確保生成的語音不僅清晰,而且還反映了文本背後的更深層次的含義。
內部評估和公共測試計劃強調了Octave在不採取過度戲劇性主張的情況下為表達性TTS設定新標準的潛力。相反,重點是使開發人員和最終用戶都受益的實踐增強功能。隨著系統的不斷發展(隨著即將到來的語音克隆在地平線上)的發展,Hume仍然致力於以技術聲音和敏感人類交流的細微差別的方式來完善AI語音技術。
查看 技術細節。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Aswin AK是Marktechpost的諮詢實習生。他正在印度科技學院哈拉格布爾(Kharagpur)攻讀雙重學位。他對數據科學和機器學習充滿熱情,為解決現實生活中的跨域挑戰帶來了強大的學術背景和動手經驗。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)