|
11月12日消息,英偉今日,達谷“騰訊開源”微信公眾號宣布,歌騰來自騰訊微信團隊的英偉KaLM-Embedding開源模型再創全球新紀錄。 在最新發布的達谷MTEB多語言通用Embedding模型權威評測中,新一代通用Embedding模型KaLM-Embedding-Gemma3-12B-2511綜合成績全球第一。歌騰 據介紹,英偉在涵蓋全球1038種語言、達谷共計131項任務的歌騰權威多語言評測體系MTEB中,KaLM-Embedding-Gemma3-12B-2511綜合得分分別達到 72.32(Mean Task)與62.51(Mean TaskType),英偉斬獲全球第一。達谷 超越包括英偉達nvidia/llama-embed-nemotron-8b、歌騰阿里Qwen/Qwen3-Embedding-8B、英偉谷歌Google/gemini-embedding-001等國內外主流開源與閉源競品。達谷 KaLM-Embedding-Gemma3-12B-2511核心亮點解析 模型規模:參數量提升至120億(12B),歌騰是當前MTEB榜單上最大規模的Embedding模型之一,顯著增強了模型的表示能力與泛化性能。 跨語言能力:在多語言語義對齊方面實現顯著優化,支持更精準的跨語種語義理解與檢索任務。 數據質量:基于經過深度清洗與篩選的大規模高質量語料進行訓練,有效提升語義表示的一致性與可靠性。 訓練策略:采用多階段對比學習、Embedding蒸餾和模型參數融合等技術,進一步提升模型多維度能力表現與綜合性能。 維度嵌套:支持多種向量維度選擇,涵蓋3840、2048、1024、512、256、128及64等多個層級,滿足不同場景下的高效應用需求。 |
