
Oumi 使用的是業界常用的 SimpleQA 基準測試,針對 4,326 筆 Google 搜尋進行分析,分別在 2025 年 10 月(使用 Gemini 2)和 2026 年 2 月(升級為 Gemini 3)各測一輪。結果顯示,Gemini 2 時代的正確率是 85%,升級到 Gemini 3 之後提升到 91%,確實有在進步。但問題出在另一個數字:在所有「正確答案」中,有高達 56% 是「無根據的(ungrounded)」,也就是說 Google 給出的答案雖然對,但它所附上的來源網站,其實無法完整證明那個答案。對讀者來說,這代表你想點進去查證,也很可能查不到任何支撐。Google 方面則回應,這份測試有缺陷,因為 SimpleQA 本身的題庫就含有錯誤資料,並強調這些搜尋情境不反映真實使用狀況。
閱讀全文