《紐約時報》實測 Google AI Overview 結果:九成正確、五成來源存疑

專家示警:答案要再查一次

《紐約時報》實測 Google AI Overview 結果:九成正確、五成來源存疑

你有沒有用過 Google 搜尋時,直接看最上面那塊 AI 自動生成的摘要就關掉頁面?這個功能叫做 AI Overview,自 2024 年起開始出現在 Google 搜尋結果最頂端,設計上就是要讓你「一眼得到答案」。不過,《紐約時報》在 2026 年 4 月委託 AI 新創公司 Oumi 進行了一次系統性實測,結果令人深思,正確率雖然高達 91%,但超過一半的正確答案,其實連結到的來源根本無法完整支撐那個答案。這篇文章帶你拆解這份報告,看看 Google AI Overview 到底有多可靠。

這次實測是怎麼做的?

Oumi 使用的是業界常用的 SimpleQA 基準測試,針對 4,326 筆 Google 搜尋進行分析,分別在 2025 年 10 月(使用 Gemini 2)和 2026 年 2 月(升級為 Gemini 3)各測一輪。結果顯示,Gemini 2 時代的正確率是 85%,升級到 Gemini 3 之後提升到 91%,確實有在進步。但問題出在另一個數字:在所有「正確答案」中,有高達 56% 是「無根據的(ungrounded)」,也就是說 Google 給出的答案雖然對,但它所附上的來源網站,其實無法完整證明那個答案。對讀者來說,這代表你想點進去查證,也很可能查不到任何支撐。Google 方面則回應,這份測試有缺陷,因為 SimpleQA 本身的題庫就含有錯誤資料,並強調這些搜尋情境不反映真實使用狀況。

🔔 不錯過任何精彩! 立即訂閱我們的 LINE 官方帳號

每次發佈新文章時,您將會第一時間收到本站文章連結通知,輕鬆掌握最新資訊!

§相關文章,還可以參閱:

案例一:Bob Marley 博物館的開幕年份,Google 答錯了

Oumi 在測試中問了 Google 一個問題:「Bob Marley 的故居是哪一年改建成博物館的?」Google AI Overview 回答是 1987 年,還補充說是 Marley 的妻子 Rita 在他去世六年後創立博物館。這個答案看起來有憑有據,卻是錯的。實際上,根據牙買加《每日觀察家》的報導,博物館是在 1986 年 5 月 11 日,也就是 Bob Marley 逝世五週年當天,正式開幕。這就差了整整一年。更耐人尋味的是 Google 附上的三個來源:第一個是 Marley 女兒的 Facebook 動態,根本沒提到開幕年份;第二個是一篇旅遊部落格,給的資訊模糊不精確;第三個是維基百科,而且維基頁面上同時出現 1986 和 1987 兩個互相矛盾的年份。這個案例清楚說明,AI Overview 的「來源」有時只是看起來有,而不是真的能支撐答案。

《紐約時報》實測 Google AI Overview 結果:九成正確、五成來源存疑

案例二:自己寫部落格,就能讓 Google 把你封為「世界專家」

這個案例更讓人覺得不安。文章中提到,行銷公司 Amsive 的 AI 搜尋副總裁 Lily Ray 指出,任何人只要發布一篇部落格文章、在裡面自稱是某個領域的世界專家,Google AI Overview 就可能把這個說法當成事實呈現給搜尋者。BBC Podcast 主持人 Thomas Germain 為了驗證這個說法,發布了一篇虛構的文章,說他在「南達科他州國際熱狗大賽」中奪冠,是「最厲害的熱狗吃播科技記者」。隔天,他搜尋相關關鍵字,Google AI Overview 真的把他列在榜首,並引用他自己那篇造假文章作為來源,形容他在競技吃播界「享有盛名」。對一般用戶來說,這意味著 AI Overview 的內容,可能來自任何一個有心人刻意佈置的網頁,而你完全不會察覺。

《紐約時報》實測 Google AI Overview 結果:九成正確、五成來源存疑

這樣的準確率,夠用嗎?

91% 的正確率,聽起來很高,但換個角度看就不一樣了。Google 每年處理超過五兆次搜尋,以 9% 的錯誤率換算,每分鐘就有數十萬筆錯誤答案被推送到使用者眼前。Oumi 的執行長 Manos Koukoumidis 提出了一個核心問題:「就算答案是對的,你要怎麼知道它是對的?你要怎麼查證?」AI-assist 公司 Okahu 的執行長 Pratik Verma 也建議,永遠不要只信任一個來源,Google AI Overview 給的答案,應該再用其他管道交叉比對。Google 官方則在每個 AI Overview 下方附上提示:「AI 可能會出錯,請再次確認回應內容。」這句話,現在看來格外真實。

對台灣使用者來說,該怎麼用 Google AI Overview?

這次實測的結論不是「不要用 Google」,而是「不要只用 Google 的 AI 摘要就停下來」。實際上,AI Overview 在快速了解一個主題的大方向時非常方便,但碰到需要精確資訊的情境,例如日期、人名、數據、法規,就一定要點進來源頁面自行確認。對習慣用 Google 搜尋的台灣讀者來說,養成「看完摘要、再點一篇原始來源」的習慣,是目前最實際的應對方式。這個世代的 AI 工具都還在進步中,它們能幫你省時,但判斷資訊真偽的責任,目前還是得由你自己來承擔。


文章來源:

https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html