Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

Google I/O 2025 發表全新 Native Speech Generation(原生語音生成)功能,AI 語音自然度再突破,免費支援多角色 Podcast 模式!

在 Google I/O 2025 的重磅更新中,AI 領域再次迎來顛覆性的創新,除了升級版的 Gemini 2.5 Pro 模型與全新推出的 Imagen 4、Veo 3,Google AI Studio 也同步推出「Native Speech Generation(原生語音生成)」技術。這項功能能將純文字轉換成極為自然的語音內容,不論是語調、節奏還是情感的流露,都大幅超越以往我們常見的 TTS(文字轉語音)系統。更重要的是,它支援多角色對話模式,適合用於模擬 Podcast 對談,讓你打造具有真實感的 AI 對話節目,完全不需要錄音室與配音員,就能呈現高水準的聲音體驗。

Native Speech Generation 不僅在自然語音生成方面大放異彩,它的另一個亮點是與「Live Audio-to-Audio Dialog(即時語音對語音對話)」的結合。這讓開發者或內容創作者能以即時互動的方式操控語音角色進行對話,類似 NotebookLM 的 Audio Overview,但功能更強、應用更自由。最棒的是,這些功能目前可在 Google AI Studio 中免費使用,無論你是開發 AI 語音機器人、建立教學內容,或製作娛樂型 Podcast,Native Speech Generation 都是不可忽視的全新利器。掌握這項技術,將讓你在語音內容創作領域搶占先機!

§相關文章,還可以參閱:

Native Speech Generation(原生語音生成)功能,AI 對話自然度再突破,免費支援多角色 Podcast 模式

1.要用 Google AI Studio 的語音生成功能,只要你有 Google 帳號就能免費體驗。雖然介面目前只有英文,但操作其實很簡單,等等我們會一步步教你。現在 Native speech generation(原生語音生成)使用的是「Gemini 2.5 Flash Preview TTS」模型,只要點進 Google AI Studio,滑到首頁下方就能看到這個新功能囉!

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

2.進入 Native Speech Generation(原生語音生成) 介面後的操作說明:

右側設定區中的 Run Settings:

  • Model:目前只有一個選項:Gemini 2.5 Flash Preview TTS。
  • Mode:預設是多人對話語音(Multi-speaker audio),如果只需要單一聲音,可切換為 Single-speaker audio。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

同樣在右側設定區的 Voice Settings:

  • Name 欄位中可以更換每位講話者的名稱。
  • Voice 欄位中可以選擇聲音角色,支援繁體中文。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

3.中間的 Script builder 會隨右側欄的選項而變動,每個角色要說的話也可以在這裡編輯;Raw structure 也會隨 Script builder 而變動,也可以直接輸入文字內容。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

4.以單人語音生成模式來說,輸入文字內容到輸入框內,也可以按底部文字內容生成按鈕,讓 AI 自行產生文字內容,不過目前僅支援英文內容。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

5.輸入好內容,點選要使用的聲音角色,再按「Run」即可生成。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

6.生成的語音,可以線上播放,也可以點擊播放器最右邊的直線 3點圖示按鈕,點選「下載」,將生成的語音下載成 .wav 音檔。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

7.多人對話,則需要自行將內容區分想要對話的角色,可以借助 ChatGPT 或 Gemini 來產生。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

8.將產生的內容貼回到 Google AI Studio,選好對話的角色,再按「Run」來產生、線上播放與下載。

Google 原生語音生成來襲!打造更自然的 AI 語音對話體驗

Google AI Studio 中的 Native Speech Generation 功能,讓 AI 語音邁入更自然、更擬真的新時代。不論是打造多角色 Podcast、模擬對話情境,還是製作教學語音內容,都能輕鬆完成,真正做到「輸入文字、語音即現」。未來不再只是冰冷機械的朗讀,而是更貼近人聲的互動體驗,讓創作變得更直覺、更有溫度。

Google 在 2025 年 I/O 大會上發表最新一代影片生成模型 Veo 3,不僅強化畫面細節與寫實度,還加入了同步語音與人物情緒的生成能力,正式讓 AI 影片技術邁入「真假難辨」的新境界。根據外媒<a href="https://9to5google.com/2025/05/21/videos-from-google-veo-3-are-impressive-and-terrifying/" target="_blank" rel="noopener"> 9to5Google </a>報導,Veo 3 生成的影片無論是光影、人物、背景還是語音情緒,幾乎與真人錄製毫無差異,甚至讓人開始擔憂未來 AI 是否會模糊虛實界線。這項技術不僅適用於創作影片,還可能被應用於電影、教育、遊戲及行銷等多個領域。