Google Gemini 免費版也能用語音轉文字功能,輕鬆將錄音檔轉成逐字稿

Google Gemini 免費版也能用語音轉文字功能,輕鬆將錄音檔轉成逐字稿

Google Gemini 最近因加入 Nano Banana 的文生圖功能再度引起關注,讓 Gemini 不只是跟 AI 聊天、寫程式,而是可以當作一個 AI 圖片編輯工具來使用。如今 Google Gemini 再增加一個功能,就是支援上傳「錄音檔案」,並且直接透過 Gemini AI 轉成逐字稿。

根據 Google 官方文件 明確說明:"Gemini can analyze and understand audio input, enabling use cases like the following: Describe, summarize, or answer questions about audio content. Provide a transcription of the audio."

這表示 Gemini 不只能進行語音轉文字,還能:

  • 描述音頻內容
  • 總結音頻重點
  • 回答關於音頻內容的問題
  • 提供完整的語音轉錄

免費版 vs 付費版功能比較(最新資訊)

根據最新的 Google 官方資訊,網頁版 Gemini 的版本差異如下:

📊 功能對照表

功能項目 免費版 付費版 (Google AI Pro/Ultra)
🕒 音檔長度限制 10 分鐘 3 小時
📁 同時上傳檔案數 最多 10 個 最多 10 個
🎵 支援格式 完整支援 完整支援
📝 語音轉文字
📊 內容分析摘要
⏰ 時間戳記功能
💰 費用 完全免費 需付費訂閱

根據官方文件,"Gemini supports the following audio format MIME types:"

✅ 完整支援格式清單:

  • WAV - audio/wav
  • Mli3 - audio/mli3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

§相關文章,還可以參閱:

技術規格與限制(官方數據)

📊 Token 計算方式

"Gemini represents each second of audio as 32 tokens; for example, one minute of audio is represented as 1,920 tokens."

每秒音頻 = 32 tokens

每分鐘音頻 = 1,920 tokens

10 分鐘音頻(免費版上限)= 19,200 tokens

⏱️ 音檔長度限制(重要!)

網頁版 Gemini(2024年最新資訊):

免費版:最多 10 分鐘音檔長度

付費版:最多 3 小時音檔長度

可以一次上傳最多 10 個檔案,但總長度受版本限制

API 版本:"The maximum supported length of audio data in a single prompt is 9.5 hours."

📁 檔案大小限制

"The maximum request size is 20 MB, which includes text prompts, system instructions, and files provided inline."

API 單次請求上限:20 MB(包含音檔和文字指令)

超過 20 MB 需要使用 Files API 先上傳檔案

🎵 音質處理

官方說明:"Gemini downsamples audio files to a 16 Kbps data resolution. If the audio source contains multiple channels, Gemini combines those channels into a single channel."

自動降採樣至 16 Kbps

多聲道會合併為單聲道

如何使用免費版 Gemini 進行語音轉文字?

重要提醒:免費版用戶請確認音檔長度不超過 10 分鐘!

方法一:網頁版 Gemini(推薦給一般用戶)

步驟 1:準備音檔

確保格式符合支援列表(推薦 MP3 或 WAV)

重要:音檔時長不可超過 10 分鐘

如有長音檔,建議先分段處理

步驟 2:前往官方網站

開啟瀏覽器前往 gemini.google.com,登入你的 Google 帳號

步驟 3:上傳音檔

在對話框中點擊附件圖示,選擇你的音檔上傳

步驟 4:使用官方建議指令

根據 Google 官方範例,你可以使用:

生成語音轉錄:Generate a transcript of the speech.

描述音頻內容:Describe this audio clip

總結音頻內容:Please summarize the audio.

方法二:指定時間段轉錄

官方文件說明:"You can refer to specific sections of an audio file using timestamps of the form MM:SS."

官方範例指令:

Provide a transcript of the speech from 02:30 to 03:29.

Provide a transcript of the speech between the timestamps 02:30 and 05:00.

免費版實際操作案例

案例:處理 8 分鐘會議錄音

檔案資訊:

格式:WAV

時長:8.46分鐘(符合免費版 10 分鐘限制)

操作步驟:

1. 前往 gemini.google.com

2. 點擊「+」圖示按鈕,上傳音檔(確認時長在 10 分鐘以內)。

Google Gemini 免費版也能用語音轉文字功能,輕鬆將錄音檔轉成逐字稿

3. 輸入指令:「Generate a transcript of the speech.」,也可以用中文指令:

轉成繁體中文且符合台灣用語的逐字稿,盡量保留原文,但修正錯字、去除贅詞,並且適當分段。

Google Gemini 免費版也能用語音轉文字功能,輕鬆將錄音檔轉成逐字稿

4. 等待 Gemini 處理並生成逐字稿。

Google Gemini 免費版也能用語音轉文字功能,輕鬆將錄音檔轉成逐字稿

一個 8分46秒的 .wav 音檔,不到 20秒就轉完了,速度相當快,且相當精準。

5. 如需特定時間段,可追加:「Please also provide a summary of the discussion between 03:00 to 06:00.」。

除了基本轉錄外,你還可以要求:

  • 請整理出這段會議的重要決議事項
  • 這段錄音中提到了哪些關鍵議題?
  • 請為這段內容製作摘要,並列出重點
  • 請分析說話者的主要觀點

下圖是以「這段錄音中提到了哪些關鍵議題?」所做出的結果。

Google Gemini 免費版也能用語音轉文字功能,輕鬆將錄音檔轉成逐字稿

🎯 如何充分利用 10 分鐘限制

分段策略:

  • 將長錄音分成 8-9 分鐘的片段(留點緩衝時間)
  • 在自然斷點處分割(如會議議題切換點)
  • 分別處理後再人工整合

優化音檔品質:

  • 盡量使用音質清晰的錄音
  • 避免背景噪音過多的環境
  • 說話速度適中,咬字清楚

善用指令:

  • 先要求基本轉錄
  • 再針對重點部分深入分析
  • 可以多次對話,逐步完善內容

🎯 如何選擇版本?

免費版適合:

  • 短會議記錄(10 分鐘內)
  • 簡短採訪內容
  • 語音備忘錄
  • 學習測試用途
  • 日常工作需求

付費版適合:

  • 長時間會議(最多 3 小時)
  • 完整課程錄音
  • 長篇採訪或播客
  • 專業大量處理需求

官方資料來源

本文內容完全基於以下 Google 官方文件:

結語

對於大部分用戶來說,10 分鐘的音檔長度限制已經能滿足日常需求。無論是會議記錄、語音備忘,還是簡短採訪,免費版 Gemini 都能提供優質的語音轉文字服務。

如果你需要處理更長的音檔,可以考慮:

  • 分段處理策略
  • 升級到付費版本
  • 搭配其他工具使用