
Google Gemini 最近因加入 Nano Banana 的文生圖功能再度引起關注,讓 Gemini 不只是跟 AI 聊天、寫程式,而是可以當作一個 AI 圖片編輯工具來使用。如今 Google Gemini 再增加一個功能,就是支援上傳「錄音檔案」,並且直接透過 Gemini AI 轉成逐字稿。
根據 Google 官方文件 明確說明:"Gemini can analyze and understand audio input, enabling use cases like the following: Describe, summarize, or answer questions about audio content. Provide a transcription of the audio."
這表示 Gemini 不只能進行語音轉文字,還能:
- 描述音頻內容
- 總結音頻重點
- 回答關於音頻內容的問題
- 提供完整的語音轉錄
免費版 vs 付費版功能比較(最新資訊)
根據最新的 Google 官方資訊,網頁版 Gemini 的版本差異如下:
📊 功能對照表
功能項目 |
免費版 |
付費版 (Google AI Pro/Ultra) |
🕒 音檔長度限制 |
10 分鐘 |
3 小時 |
📁 同時上傳檔案數 |
最多 10 個 |
最多 10 個 |
🎵 支援格式 |
完整支援 |
完整支援 |
📝 語音轉文字 |
✅ |
✅ |
📊 內容分析摘要 |
✅ |
✅ |
⏰ 時間戳記功能 |
✅ |
✅ |
💰 費用 |
完全免費 |
需付費訂閱 |
根據官方文件,"Gemini supports the following audio format MIME types:"
✅ 完整支援格式清單:
- WAV - audio/wav
- Mli3 - audio/mli3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - audio/ogg
- FLAC - audio/flac
技術規格與限制(官方數據)
📊 Token 計算方式
"Gemini represents each second of audio as 32 tokens; for example, one minute of audio is represented as 1,920 tokens."
每秒音頻 = 32 tokens
每分鐘音頻 = 1,920 tokens
10 分鐘音頻(免費版上限)= 19,200 tokens
⏱️ 音檔長度限制(重要!)
網頁版 Gemini(2024年最新資訊):
免費版:最多 10 分鐘音檔長度
付費版:最多 3 小時音檔長度
可以一次上傳最多 10 個檔案,但總長度受版本限制
API 版本:"The maximum supported length of audio data in a single prompt is 9.5 hours."
📁 檔案大小限制
"The maximum request size is 20 MB, which includes text prompts, system instructions, and files provided inline."
API 單次請求上限:20 MB(包含音檔和文字指令)
超過 20 MB 需要使用 Files API 先上傳檔案
🎵 音質處理
官方說明:"Gemini downsamples audio files to a 16 Kbps data resolution. If the audio source contains multiple channels, Gemini combines those channels into a single channel."
自動降採樣至 16 Kbps
多聲道會合併為單聲道
如何使用免費版 Gemini 進行語音轉文字?
重要提醒:免費版用戶請確認音檔長度不超過 10 分鐘!
方法一:網頁版 Gemini(推薦給一般用戶)
步驟 1:準備音檔
確保格式符合支援列表(推薦 MP3 或 WAV)
重要:音檔時長不可超過 10 分鐘
如有長音檔,建議先分段處理
步驟 2:前往官方網站
開啟瀏覽器前往 gemini.google.com,登入你的 Google 帳號
步驟 3:上傳音檔
在對話框中點擊附件圖示,選擇你的音檔上傳
步驟 4:使用官方建議指令
根據 Google 官方範例,你可以使用:
生成語音轉錄:Generate a transcript of the speech.
描述音頻內容:Describe this audio clip
總結音頻內容:Please summarize the audio.
方法二:指定時間段轉錄
官方文件說明:"You can refer to specific sections of an audio file using timestamps of the form MM:SS."
官方範例指令:
Provide a transcript of the speech from 02:30 to 03:29.
Provide a transcript of the speech between the timestamps 02:30 and 05:00.
免費版實際操作案例
案例:處理 8 分鐘會議錄音
檔案資訊:
格式:WAV
時長:8.46分鐘(符合免費版 10 分鐘限制)
操作步驟:
1. 前往 gemini.google.com。
2. 點擊「+」圖示按鈕,上傳音檔(確認時長在 10 分鐘以內)。
3. 輸入指令:「Generate a transcript of the speech.」,也可以用中文指令:
轉成繁體中文且符合台灣用語的逐字稿,盡量保留原文,但修正錯字、去除贅詞,並且適當分段。
4. 等待 Gemini 處理並生成逐字稿。
一個 8分46秒的 .wav 音檔,不到 20秒就轉完了,速度相當快,且相當精準。
5. 如需特定時間段,可追加:「Please also provide a summary of the discussion between 03:00 to 06:00.」。
除了基本轉錄外,你還可以要求:
- 請整理出這段會議的重要決議事項
- 這段錄音中提到了哪些關鍵議題?
- 請為這段內容製作摘要,並列出重點
- 請分析說話者的主要觀點
下圖是以「這段錄音中提到了哪些關鍵議題?」所做出的結果。
🎯 如何充分利用 10 分鐘限制
分段策略:
- 將長錄音分成 8-9 分鐘的片段(留點緩衝時間)
- 在自然斷點處分割(如會議議題切換點)
- 分別處理後再人工整合
優化音檔品質:
- 盡量使用音質清晰的錄音
- 避免背景噪音過多的環境
- 說話速度適中,咬字清楚
善用指令:
- 先要求基本轉錄
- 再針對重點部分深入分析
- 可以多次對話,逐步完善內容
🎯 如何選擇版本?
免費版適合:
- 短會議記錄(10 分鐘內)
- 簡短採訪內容
- 語音備忘錄
- 學習測試用途
- 日常工作需求
付費版適合:
- 長時間會議(最多 3 小時)
- 完整課程錄音
- 長篇採訪或播客
- 專業大量處理需求
官方資料來源
本文內容完全基於以下 Google 官方文件:
結語
對於大部分用戶來說,10 分鐘的音檔長度限制已經能滿足日常需求。無論是會議記錄、語音備忘,還是簡短採訪,免費版 Gemini 都能提供優質的語音轉文字服務。
如果你需要處理更長的音檔,可以考慮: