《紐約時報》實測 Google AI Overview 結果：九成正確、五成來源存疑

你有沒有用過 Google 搜尋時，直接看最上面那塊 AI 自動生成的摘要就關掉頁面？這個功能叫做 AI Overview，自 2024 年起開始出現在 Google 搜尋結果最頂端，設計上就是要讓你「一眼得到答案」。不過，《紐約時報》在 2026 年 4 月委託 AI 新創公司 Oumi 進行了一次系統性實測，結果令人深思，正確率雖然高達 91％，但超過一半的正確答案，其實連結到的來源根本無法完整支撐那個答案。這篇文章帶你拆解這份報告，看看 Google AI Overview 到底有多可靠。

這次實測是怎麼做的？

Oumi 使用的是業界常用的 SimpleQA 基準測試，針對 4,326 筆 Google 搜尋進行分析，分別在 2025 年 10 月（使用 Gemini 2）和 2026 年 2 月（升級為 Gemini 3）各測一輪。結果顯示，Gemini 2 時代的正確率是 85％，升級到 Gemini 3 之後提升到 91％，確實有在進步。但問題出在另一個數字：在所有「正確答案」中，有高達 56％是「無根據的（ungrounded）」，也就是說 Google 給出的答案雖然對，但它所附上的來源網站，其實無法完整證明那個答案。對讀者來說，這代表你想點進去查證，也很可能查不到任何支撐。Google 方面則回應，這份測試有缺陷，因為 SimpleQA 本身的題庫就含有錯誤資料，並強調這些搜尋情境不反映真實使用狀況。

§相關文章，還可以參閱：

案例一：Bob Marley 博物館的開幕年份，Google 答錯了

Oumi 在測試中問了 Google 一個問題：「Bob Marley 的故居是哪一年改建成博物館的？」Google AI Overview 回答是 1987 年，還補充說是 Marley 的妻子 Rita 在他去世六年後創立博物館。這個答案看起來有憑有據，卻是錯的。實際上，根據牙買加《每日觀察家》的報導，博物館是在 1986 年 5 月 11 日，也就是 Bob Marley 逝世五週年當天，正式開幕。這就差了整整一年。更耐人尋味的是 Google 附上的三個來源：第一個是 Marley 女兒的 Facebook 動態，根本沒提到開幕年份；第二個是一篇旅遊部落格，給的資訊模糊不精確；第三個是維基百科，而且維基頁面上同時出現 1986 和 1987 兩個互相矛盾的年份。這個案例清楚說明，AI Overview 的「來源」有時只是看起來有，而不是真的能支撐答案。

《紐約時報》實測 Google AI Overview 結果：九成正確、五成來源存疑

案例二：自己寫部落格，就能讓 Google 把你封為「世界專家」

這個案例更讓人覺得不安。文章中提到，行銷公司 Amsive 的 AI 搜尋副總裁 Lily Ray 指出，任何人只要發布一篇部落格文章、在裡面自稱是某個領域的世界專家，Google AI Overview 就可能把這個說法當成事實呈現給搜尋者。BBC Podcast 主持人 Thomas Germain 為了驗證這個說法，發布了一篇虛構的文章，說他在「南達科他州國際熱狗大賽」中奪冠，是「最厲害的熱狗吃播科技記者」。隔天，他搜尋相關關鍵字，Google AI Overview 真的把他列在榜首，並引用他自己那篇造假文章作為來源，形容他在競技吃播界「享有盛名」。對一般用戶來說，這意味著 AI Overview 的內容，可能來自任何一個有心人刻意佈置的網頁，而你完全不會察覺。

這樣的準確率，夠用嗎？

91％的正確率，聽起來很高，但換個角度看就不一樣了。Google 每年處理超過五兆次搜尋，以 9％的錯誤率換算，每分鐘就有數十萬筆錯誤答案被推送到使用者眼前。Oumi 的執行長 Manos Koukoumidis 提出了一個核心問題：「就算答案是對的，你要怎麼知道它是對的？你要怎麼查證？」AI-assist 公司 Okahu 的執行長 Pratik Verma 也建議，永遠不要只信任一個來源，Google AI Overview 給的答案，應該再用其他管道交叉比對。Google 官方則在每個 AI Overview 下方附上提示：「AI 可能會出錯，請再次確認回應內容。」這句話，現在看來格外真實。

對台灣使用者來說，該怎麼用 Google AI Overview？

這次實測的結論不是「不要用 Google」，而是「不要只用 Google 的 AI 摘要就停下來」。實際上，AI Overview 在快速了解一個主題的大方向時非常方便，但碰到需要精確資訊的情境，例如日期、人名、數據、法規，就一定要點進來源頁面自行確認。對習慣用 Google 搜尋的台灣讀者來說，養成「看完摘要、再點一篇原始來源」的習慣，是目前最實際的應對方式。這個世代的 AI 工具都還在進步中，它們能幫你省時，但判斷資訊真偽的責任，目前還是得由你自己來承擔。

文章來源：

https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html