您的當前位置:首頁 > 探索 > 11月中文大模型基準測評出爐:GPT 5.1奪冠、DeepSeek開源第一 正文
時間:2025-11-30 03:47:22 來源:網絡整理 編輯:探索
11月28日消息,SuperCLUE公布了2025年11月中文大模型基準測評結果。本次測評圍繞數學推理、科學推理、代碼生成含web開發)、幻覺控制、精確指令遵循五大核心任務展開,題目總量為822道新題
11月28日消息,月中源第SuperCLUE公布了2025年11月中文大模型基準測評結果。模型
本次測評圍繞數學推理、基準科學推理、測評出爐代碼生成(含web開發)、月中源第幻覺控制、模型精確指令遵循五大核心任務展開,基準題目總量為822道新題,測評出爐最終得分取各任務平均分。月中源第
本次共測評27個國內外大模型同臺競技,模型OpenAI的基準GPT 5.1與國產模型DeepSeek分別斬獲綜合冠軍與開源領域第一。
OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂,成為本月綜合表現最佳的月中源第大模型。
GPT-5.1 在數學推理(74.07)、模型代碼生成(76.30)等項表現突出,基準幻覺控制得分 88.80,展現出強穩定性。
Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后,其幻覺控制得分高達90.33,在該項能力上領跑。
而在開源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。
前全球銷售主管爆猛料:特斯拉曾拆解中國電車汲取寶貴經驗2025-11-30 03:45
雙11同比暴漲 621%的背后 WIKO Hi MateBook 14 圈粉潮人2025-11-30 02:53
(粵港澳全運會)湖北隊獲得男子4×100米接力冠軍 廣東隊無緣獎牌2025-11-30 02:49
凱文·史派西無家可歸2025-11-30 02:46
女子生理期海下潛水被鯊魚咬傷:血腥味刺激鯊魚2025-11-30 02:36
AI重構工作方式 中國全球新能源500強企業一半用釘釘2025-11-30 02:26
安全就是一切!小米汽車:智駕團隊成員超1800人 今年AI領域研發投入超70億2025-11-30 01:50
小鵬汽車第100萬臺整車下線!從50萬到100萬僅用14個月2025-11-30 01:37
東西問丨徐甜甜:“建筑針灸”理念如何走入國際視野?2025-11-30 01:32
(粵港澳全運會)三戰全運終摘金 吳易昺:敢想敢說才能做到2025-11-30 01:03
中國援圭醫療隊捐贈呼吸機惠及當地患者2025-11-30 03:44
聯想中國交出第二財季成績單:個人AI業務持續領跑,企業AI業務增勢強勁2025-11-30 03:29
商務部:將推動一批老字號創新升級 打造一批老字號品牌集合店、旗艦店2025-11-30 03:11
大疆:不需要跟任何公司聯合把無人機這件事做大2025-11-30 02:44
提升國家隊競爭力,新賽季CBA聯賽采用國際籃聯規則2025-11-30 02:33
小米空調大賣威脅到傳統廠商!美的要求售后停止小米和格力業務:官方回應2025-11-30 02:23
退休五年后,公安廳老廳長被查2025-11-30 02:19
插線長時供電+11種開鎖方式!小米智能門鎖M40發布:到手價2804.15元2025-11-30 02:00
Steam黑五特惠!耕升GeForce RTX 5070 Ti 追風 OC 2.0暢爽游戲佳節2025-11-30 01:55
蔚來精品小車螢火蟲賣爆 累計交付突破3萬輛:將進軍東南亞2025-11-30 01:04