從Google DeepMind到Gemini 2.5的更新

新雙子座2.5功能

天然音頻輸出和實時API的改進

如今,Live API正在引入視聽輸入和本機音頻對話的預覽版本,因此您可以直接使用更自然和表現力的雙子座構建對話體驗。

它還允許用戶引導其語氣,口音和口語風格。例如,您可以告訴模型在講故事時使用戲劇性的聲音。它支持工具的使用,以便能夠代表您進行搜索。

您可以嘗試一組早期功能,包括:

  • 情感對話,該模型在用戶的聲音中檢測到情感並做出適當響應。
  • 主動音頻,模型將忽略背景對話並知道何時響應。
  • 在實時API中進行思考,該模型利用雙子座的思維功能來支持更複雜的任務。

我們還將在2.5 Pro和2.5 Flash中釋放用於文本到語音的新預覽。這些具有對多個揚聲器的首先支持,可以通過本機音頻啟用兩種聲音的文字到語音。

像本地音頻對話一樣,文本到語音具有表現力,可以捕捉到非常微妙的細微差別,例如耳語。它以24多種語言起作用,並在它們之間無縫切換。

Source link

Scroll to Top