新雙子座2.5功能
天然音頻輸出和實時API的改進
如今,Live API正在引入視聽輸入和本機音頻對話的預覽版本,因此您可以直接使用更自然和表現力的雙子座構建對話體驗。
它還允許用戶引導其語氣,口音和口語風格。例如,您可以告訴模型在講故事時使用戲劇性的聲音。它支持工具的使用,以便能夠代表您進行搜索。
您可以嘗試一組早期功能,包括:
- 情感對話,該模型在用戶的聲音中檢測到情感並做出適當響應。
- 主動音頻,模型將忽略背景對話並知道何時響應。
- 在實時API中進行思考,該模型利用雙子座的思維功能來支持更複雜的任務。
我們還將在2.5 Pro和2.5 Flash中釋放用於文本到語音的新預覽。這些具有對多個揚聲器的首先支持,可以通過本機音頻啟用兩種聲音的文字到語音。
像本地音頻對話一樣,文本到語音具有表現力,可以捕捉到非常微妙的細微差別,例如耳語。它以24多種語言起作用,並在它們之間無縫切換。