您現在的位置是:熱點 >>正文
Gemini 3中文測評結果發布:首超GPT
熱點88716人已圍觀
簡介11月19日消息,2025年末全球AI競技場再掀波瀾,測評機構SuperCLUE最新報告顯示:谷歌Gemini-3-Pro-Preview在SuperCLUE 9月中文大模型基準測評中獲得了70.80 ...
11月19日消息,中文2025年末全球AI競技場再掀波瀾,測評測評機構SuperCLUE最新報告顯示:谷歌Gemini-3-Pro-Preview在SuperCLUE 9月中文大模型基準測評中獲得了70.80的結果總分。
它超越 GPT-5(high) 1.43 分,發布較GPT-5.1(high)落后1.71分,首超位居全球第二。中文Gemini-2.5-Pro目前排名全球第七。測評
Gemini-3-Pro-Preview的結果推理效率相較于Gemini-2.5-Pro有些許提升,從平均每題花費32.2秒降低到31.9秒。發布推理成本從24.5元/百萬Tokens上升到32.0元/百萬Tokens。首超
據了解,中文本次測評覆蓋六大核心維度,測評數學推理、結果科學推理、發布代碼生成(含web開發)、首超智能體Agent(多輪工具調用)、幻覺控制、精確指令遵循。
與GPT-5.1(high)相比,Gemini-3-Pro-Preview的優勢集中體現在幻覺控制,科學推理旗鼓相當,而在其他四個方面全面落敗。
Tags:
相關文章
妄言臺灣問題,開啟“潘多拉魔盒”?
熱點日本首相高市早苗近日在國會公然宣稱“臺灣有事”可能構成日本行使所謂“集體自衛權”的“存亡危機事態”,暗示可能武力介入臺海問題。此番挑釁言論,無異于打開藏著日本軍國主義亡魂的“潘多拉魔盒”,不僅意在將東 ...
【熱點】
閱讀更多“進博會是全球創新落地中國的橋梁”
熱點8年來,進博會溢出效應持續放大,越來越多企業在這里共享中國機遇。作為連續8年參展的“全勤生”,三星通過進博會不斷將展品轉化為商品。進博會不僅是企業向中國消費者展示前沿技術和產品 ...
【熱點】
閱讀更多波司登重鑄新零售邏輯 以“小時達”打通服飾業“最后一公里”溫暖防線
熱點——打通“即時購”鏈路,引領服飾行業渠道變革隨著秋冬季節的臨近,氣溫驟降讓羽絨服成為消費者出行保暖的剛需。10月底,國內羽絨服領軍品牌波司登正式宣布,聯 ...
【熱點】
閱讀更多