首頁線上工具影音視聽

Google Gemini 免費版也能用語音轉文字功能，輕鬆將錄音檔轉成逐字稿

Google Gemini 免費版也能用語音轉文字功能，輕鬆將錄音檔轉成逐字稿

Google Gemini 最近因加入 Nano Banana 的文生圖功能再度引起關注，讓 Gemini 不只是跟 AI 聊天、寫程式，而是可以當作一個 AI 圖片編輯工具來使用。如今 Google Gemini 再增加一個功能，就是支援上傳「錄音檔案」，並且直接透過 Gemini AI 轉成逐字稿。

根據 Google 官方文件的說明：「Gemini can analyze and understand audio input, enabling use cases like the following: Describe, summarize, or answer questions about audio content. Provide a transcription of the audio.」

這表示 Gemini 不只能進行語音轉文字，還能：

描述音頻內容
總結音頻重點
回答關於音頻內容的問題
提供完整的語音轉錄

免費版 vs 付費版功能比較（最新資訊）

根據最新的 Google 官方資訊，網頁版 Gemini 的版本差異如下：

📊 功能對照表

功能項目	免費版	付費版 (Google AI Pro/Ultra)
🕒 音檔長度限制	10 分鐘	3 小時
📁 同時上傳檔案數	最多 10 個	最多 10 個
🎵 支援格式	完整支援	完整支援
📝 語音轉文字	✅	✅
📊 內容分析摘要	✅	✅
⏰ 時間戳記功能	✅	✅
💰 費用	完全免費	需付費訂閱

根據官方文件，「Gemini supports the following audio format MIME types:」。

✅ 完整支援格式清單：

WAV - audio/wav
Mli3 - audio/mli3
AIFF - audio/aiff
AAC - audio/aac
OGG Vorbis - audio/ogg
FLAC - audio/flac

§相關文章，還可以參閱：

技術規格與限制（官方數據）

📊 Token 計算方式

"Gemini represents each second of audio as 32 tokens; for example, one minute of audio is represented as 1,920 tokens."

每秒音頻 = 32 tokens

每分鐘音頻 = 1,920 tokens

10 分鐘音頻（免費版上限）= 19,200 tokens

⏱️ 音檔長度限制（重要！）

網頁版 Gemini（2024年最新資訊）：

免費版：最多 10 分鐘音檔長度

付費版：最多 3 小時音檔長度

可以一次上傳最多 10 個檔案，但總長度受版本限制

API 版本："「The maximum supported length of audio data in a single prompt is 9.5 hours.」

📁 檔案大小限制

「The maximum request size is 20 MB, which includes text prompts, system instructions, and files provided inline.」

API 單次請求上限：20 MB（包含音檔和文字指令）

超過 20 MB 需要使用 Files API 先上傳檔案

🎵 音質處理

官方說明：「Gemini downsamples audio files to a 16 Kbps data resolution. If the audio source contains multiple channels, Gemini combines those channels into a single channel.」

自動降採樣至 16 Kbps

多聲道會合併為單聲道

如何使用免費版 Gemini 進行語音轉文字？

重要提醒：免費版用戶請確認音檔長度不超過 10 分鐘！

方法一：網頁版 Gemini（推薦給一般用戶）

步驟 1：準備音檔

確保格式符合支援列表（推薦 MP3 或 WAV）

重要：音檔時長不可超過 10 分鐘

如有長音檔，建議先分段處理

步驟 2：前往官方網站

開啟瀏覽器前往 gemini.google.com，登入你的 Google 帳號

步驟 3：上傳音檔

在對話框中點擊附件圖示，選擇你的音檔上傳

步驟 4：使用官方建議指令

根據 Google 官方範例，你可以使用：

生成語音轉錄：Generate a transcript of the speech.

描述音頻內容：Describe this audio clip

總結音頻內容：Please summarize the audio.

方法二：指定時間段轉錄

官方文件說明：「You can refer to specific sections of an audio file using timestamps of the form MM:SS.」

官方範例指令：

Provide a transcript of the speech from 02:30 to 03:29.

Provide a transcript of the speech between the timestamps 02:30 and 05:00.

免費版實際操作案例

案例：處理 8 分鐘會議錄音

檔案資訊：

格式：WAV

時長：8.46分鐘（符合免費版 10 分鐘限制）

操作步驟：

1. 前往 gemini.google.com。

2. 點擊「+」圖示按鈕，上傳音檔（確認時長在 10 分鐘以內）。

Google Gemini 免費版也能用語音轉文字功能，輕鬆將錄音檔轉成逐字稿

3. 輸入指令：「Generate a transcript of the speech.」，也可以用中文指令：

轉成繁體中文且符合台灣用語的逐字稿，盡量保留原文，但修正錯字、去除贅詞，並且適當分段。

Google Gemini 免費版也能用語音轉文字功能，輕鬆將錄音檔轉成逐字稿

4. 等待 Gemini 處理並生成逐字稿。

Google Gemini 免費版也能用語音轉文字功能，輕鬆將錄音檔轉成逐字稿

一個 8分46秒的 .wav 音檔，不到 20秒就轉完了，速度相當快，且相當精準。

5. 如需特定時間段，可追加：「Please also provide a summary of the discussion between 03:00 to 06:00.」。

除了基本轉錄外，你還可以要求：

請整理出這段會議的重要決議事項
這段錄音中提到了哪些關鍵議題？
請為這段內容製作摘要，並列出重點
請分析說話者的主要觀點

下圖是以「這段錄音中提到了哪些關鍵議題？」所做出的結果。

Google Gemini 免費版也能用語音轉文字功能，輕鬆將錄音檔轉成逐字稿

🎯 如何充分利用 10 分鐘限制

分段策略：

將長錄音分成 8-9 分鐘的片段（留點緩衝時間）
在自然斷點處分割（如會議議題切換點）
分別處理後再人工整合

優化音檔品質：

盡量使用音質清晰的錄音
避免背景噪音過多的環境
說話速度適中，咬字清楚

善用指令：

先要求基本轉錄
再針對重點部分深入分析
可以多次對話，逐步完善內容

🎯 如何選擇版本？

免費版適合：

短會議記錄（10 分鐘內）
簡短採訪內容
語音備忘錄
學習測試用途
日常工作需求

付費版適合：

長時間會議（最多 3 小時）
完整課程錄音
長篇採訪或播客
專業大量處理需求

官方資料來源

本文內容完全基於以下 Google 官方文件：

主要參考：Audio understanding | Gemini API | Google AI for Developers
官方網站：Google Gemini

結語

對於大部分用戶來說，10 分鐘的音檔長度限制已經能滿足日常需求。無論是會議記錄、語音備忘，還是簡短採訪，免費版 Gemini 都能提供優質的語音轉文字服務。

如果你需要處理更長的音檔，可以考慮：

分段處理策略
升級到付費版本
搭配其他工具使用