更懂你的AI伙伴！科大訊飛發布多模態超擬人交互-企業錄(www.cmjokers.net)-公司信息發布,網上買賣交易門戶

<b id="zlk11"><small id="zlk11"></small></b>

<rp id="zlk11"></rp>

<var id="zlk11"></var>

<video id="zlk11"><td id="zlk11"><output id="zlk11"></output></td></video>

當前位置:首頁 > 綜合 > 更懂你的AI伙伴！科大訊飛發布多模態超擬人交互

更懂你的AI伙伴！科大訊飛發布多模態超擬人交互

時間:2025-11-26 17:34:50來源：企業錄(www.cmjokers.net)-公司信息發布,網上買賣交易門戶作者:綜合

在2025年科大訊飛全球1024開發者節的更懂現場，數字人“小飛”正與三人暢聊。大訊TA會聽能看，伙互記得住對話人的伴科布多身份、歷史信息并給出貼心提醒，模態觀察細節之后能給出詳細的超擬信息介紹與位置導覽，甚至一鍵幫忙訂票；TA能說會道，人交高情商回復既自然又靈動，更懂還能用外語和外國朋友談天說地。大訊TA還化身為數字人林黛玉，伙互形象清麗、伴科布多語氣惟妙惟肖。模態

特別是超擬在多人聊天時，“小飛”還能理解和分辨到底是人交在和自己對話，還是更懂多人之間相互聊天，從而判斷是否接話和插話。

這一系列流暢、自然且充滿“人情味”的互動，標志著多模態超擬人交互技術已從概念探索邁入可用、好用的新階段。

這一前沿技術展示的背后，離不開堅實的技術積淀與產業共識的支撐。就在不久前，國際電信聯盟（ITU-T SG21）在瑞士日內瓦召開全體會議，由科大訊飛與中國信通院共同參與編輯的兩項數字人國際標準——ITU-T F.748.63（基礎模型增強的數字人系統框架及通用技術要求）與ITU-T F.748.64（數字人服務平臺要求）——順利通過結項，計劃于2026年正式發布。這意味著，推動產業發展的技術實踐，正在凝聚成全球公認的規范。

一、技術內核：多模態超擬人交互，讓“更懂你”

“小飛”所展現的驚艷體驗，源于其在感知、認知與表達三大層面的技術協同突破。

在信息感知層面，系統具備了“耳聰目明”的能力。此次展示的多模態交互系統具備5米0dB遠場高噪語音識別能力，在嘈雜環境中也能精準識別，更加貼合真實的使用和交互場景?；诙嗄B語音增強技術，系統能融合語音、人臉、姿態等信息，結合說話人站位鎖定多人對話中的目標，實現音頻與說話人的綁定，攻克了多人高噪場景下的識別難題。同時，訊飛創新性地提出說話人引導的注意力增強方案，實現對交互區域的細粒度視覺信息感知，讓視覺信息更加準確；進一步提出局部檢索增強技術，通過視覺思維鏈提取局部關鍵區域，實現遠場條件下的局部物體檢索增強識別。

在認知與理解層面，數字人開始“讀懂心意”。多人交互理解技術融合對話歷史、語音活動狀態等信息，加強了模型對多人復雜場景的理解能力，更好地把握和用戶的交互時機，以及交互意圖的精準判斷，實現了響應速度和響應質量的平衡，既不“搶答”也不“亂答”。另外，多模態交互系統能夠實現分鐘級情感解析、深度共情，讀懂對話人的真實心緒，回應“心領神會”的默契瞬間。

在表達與輸出層面，交互變得更有溫度。超擬人數字人能通過多模態前端定位說話人方位，像真人一樣能視線跟隨看向當前交互的對象，增強交互的真實感；數字人的回復也更加自然、共情，得益于多情感語音合成技術創新性研發了多輪上下文信息建模方案，能夠對語音交互中的歷史多輪QA音頻和文本進行編碼、感知對話人的情感變化，再通過語音合成大模型的自適應情感合成能力，讓數字人的回復合成聲音情緒語氣隨之變化，給出恰當的情感回應，在聲音的自然度、情感表達、節奏停頓等細節上表現更好，尤其是在多輪交互中的效果提升顯著。

值得一提的是，此次發布會上首發的個性化記憶能力也加入了超擬人交互系統，通過分層式動態記憶體架構，實現了長短期協同的精準用戶記憶。結構化推理方案的設計，確保了模型在個性化任務中進行嚴謹的邏輯推理；借助強化學習在對齊用戶個人偏好上持續優化，實現了從“內容個性化”到“溝通風格個性化”的進化，增強了多模態交互的個性化回復能力。

二、標準筑基：從技術實踐到國際規范制定

技術上的領跑為規則制定提供了關鍵依據。此次科大訊飛能夠主導國際標準的制定，離不開它在人工智能領域長期的技術積累和廣泛的產品應用。

科大訊飛自主研發的星火大模型為數字人提供了深層的認知理解基礎，而在語音、自然語言處理等領域的全棧式AI技術積累，則為實現自然流暢的人機交互奠定了基石。此前，科大訊飛的AI虛擬人交互平臺通過了中國信通院人工智能研究所組織的大模型數字人基礎能力分級測試，并獲得最高等級L5認證，也進一步證明了訊飛AI虛擬人交互平臺技術方案的先進性與成熟度。這些扎實且經過市場檢驗的技術能力，為其參與國際標準討論與制定提供了重要依據，也將中國的技術實踐融入了全球數字人產業發展的藍圖。

三、場景落地：雙平臺驅動產業智能應用

技術的終極價值在于應用?？拼笥嶏w通過訊飛智作與訊飛AI虛擬人交互平臺，將前沿技術轉化為可規模落地的產品與服務。

訊飛智作作為一站式虛擬人音視頻內容生產平臺，不僅提供豐富多元的形象與聲音，還支持僅憑一張照片、一句話快速生成專屬數字人，目前已構建超10萬數字分身，500萬的聲音復刻，廣泛賦能教培、金融、文旅、政企等多個業務領域。

訊飛AI虛擬人交互平臺則聚焦全棧式虛擬人多場景應用服務，讓數字IP不僅“動起來”，更能“交互起來”。平臺支持零代碼快速嵌入小程序、導游機等終端，更提供智能交互機、移動數字人、AI 虛擬人直播機等軟硬一體化方案，同時通過終端 SDK、服務端 API、公有云 API 及私有化部署等靈活接入方式，可適配 APP、Web、小程序等多種產品形態。

從多模態超擬人交互的技術突破，到參與國際標準制定的能力認證，再到雙平臺推動的產業賦能，科大訊飛在數字人領域形成了從技術到市場、從實踐到標準的閉環。未來，隨著“AI+行業”的持續深入，更智能、更自然的數字人有望在更多領域成為人類的智能伙伴。我們也將繼續在多模態超擬人交互技術上踏實前行、持續進階，不斷帶來新的驚喜。

#訊飛智作 #訊飛AI虛擬人交互平臺 #數字人 #多模態超擬人交互 #科大訊飛

相關內容

特斯拉撞死闖國道野豬：車主被判全責行車記錄儀視頻曝光
舞的部首
菜地螞蟻用什么藥可以殺死
運動出汗有什么好處
臺當局以“設籍大陸”廢止50人戶籍臺青斥其恐嚇愛國臺胞
sod多少錢一盒
籃球一級運動員
金牛座2021年
康熙親爹另有其人？專家：沒有證據，努爾哈赤、康熙、雍正都是相同父系
藥品可以寄到國外嗎
開始胃疼是什么梗
女生吃圣女果有什么好處
華為自研P1電機實物首次曝光：發電功率密度高于行業10% 150km/h高速巡航不虧電
四個字的歌曲
米餅怎么做

推薦內容

熱點內容

友情鏈接

Win11將魔改為AI OS引網友不滿：微軟直接禁止評論鎖定45萬元以上！嵐圖高管：大六座SUV就看泰山和問界M9 （粵港澳全運會）全運會田徑賽場速度之戰即將上演

最斩殴美精品一二三区_手机免费Av片在线播放_精品在线欧美一区二区_亚洲欧洲自拍拍偷午夜色无码_精品3d动画肉动漫在线无码_日本高清中文字幕二区不卡