<b id="zlk11"><small id="zlk11"></small></b>
  • <b id="zlk11"><sub id="zlk11"></sub></b>

  • <rp id="zlk11"></rp>
    <var id="zlk11"></var>
    <video id="zlk11"><td id="zlk11"><output id="zlk11"></output></td></video>
      1. 歡迎來到企業錄(www.cmjokers.net)-公司信息發布,網上買賣交易門戶

        企業錄(www.cmjokers.net)-公司信息發布,網上買賣交易門戶

        靈初智能陳源培:騰訊云強大算力助力快速完成VLA模型訓練

        時間:2025-11-26 17:31:57 出處:知識閱讀(143)

        11月21日,靈初練騰訊全球數字生態大會城市峰會落地無錫,智能助力靈初智能聯合創始人陳源培發表主題演講,陳源分享了具身智能在靈巧操作領域的培騰技術突破與應用前景,并重點介紹了與騰訊云在模型訓練、訊云型訓遠程遙操作等方面的算力深度合作成果。

        陳源培指出,快速具身智能在靈巧操作領域的完成發展面臨模型、數據與場景三大核心挑戰。靈初練模型層面,智能助力需攻克復雜指令理解與實體運動控制的陳源融合問題;數據層面,存在訓練樣本規模不足導致訓練效率低下的培騰瓶頸;場景層面,則需克服真實環境中的訊云型訓不確定性,以實現技術的算力穩定部署與規?;瘧?。

        在模型構建方面,快速靈初智能采用“分層端到端”VLA架構作為核心技術路線。陳源培表示,這一架構對云端算力的性能與穩定性提出了極高要求。在模型訓練過程中,騰訊云提供了強大的異構計算資源和全鏈路優化支持,顯著加速了模型迭代進程,為技術從構想走向原型提供了關鍵保障。

        針對數據獲取與場景落地難題,雙方基于騰訊云的音視頻技術,構建了端到端的低時延遠程控制系統。“該方案不僅為復雜場景提供可靠的人工干預通道,更重要的是構建了高質量示范數據的采集通路,為模型的持續優化與強化學習奠定堅實基礎。”陳源培強調。

        展望未來,陳源培表示靈初智能將繼續深化與騰訊云的戰略合作,共同推進具身智能技術在物流、零售等場景的規?;涞?,加速智能機器人技術在產業端的應用進程。

        以下為陳源培講話全文:

        各位領導大家好,我是靈初的聯創陳源培。今天我給大家帶來的分享是《具身智能靈巧操作的發展》。

        我會從四個方面來介紹,第一個是具身智能的挑戰。在靈初看來具身智能主要由三個方面構成,第一個場景,第二個數據,第三個模型。

        我先從場景說起,我們公司是專注于做雙臂雙手靈巧操作的公司,我們選的是輪式底盤,具身智能最大的價值代替人們勞動,提高生產力,最關鍵的是雙手操作,所以我們選擇了一雙手,這跟數據強相關。

        對于具身來說,大概率還是用人類的數據,現有的幾種數據模式,包括數據工廠和仿真數據,都有各自的缺陷,仿真會有一些很難仿真的東西,比如軟體、流體,數據工廠雖然可以高質量的采集數據,但并不能采集世界上所有的數據,我們走的是直接采集人類數據,直接采集人手數據,再用到機器人上,這個我后面會詳細介紹。

        還有就是模型,我們公司是國內最早提出分層端到端的公司,甚至早于國外的公司,這是源于我們團隊一開始的背景就是從大模型和強化學習來的,我們認為純粹的端到端是比較早期的,現在比較務實的方法是分層的做法,也逐漸成為了行業共識。這里面最難的點是什么?主要有兩個,第一個是在分層的時候,上層的大腦和小腦要怎么銜接,第二個就是如何通過強化學習,提高它的整體操作成功率和泛化性,這兩點我們公司都有自己的思考。

        公司當時在仿真里面做靈巧手的訓練,這是非常雜亂的樂高堆,然后抓起來再放下來,包括各種各樣形狀的樂高,包括人工的打斷,都可以做的比較好。右邊也是從仿真到真機里面,具有六十多個靈巧操作的展示,這些都是我們公司很早的積累,就形成了現在這么一個分層端到端的VLA架構,上層有一個Planner,是大模型微調形成的,主要輸入的是圖片和語音,通過上層的COT自適應的輸出最適合下沉模型的Token,然后給到下層,下層的小腦模型再通過這些輸入,來輸出機器人具體的關節角度,整個過程中,它會有幾段,一開始先用預訓練數據來做訓練,后面會用真機強化的方式做最后成功率的提升。

        剛剛說到了數據,我們在數據的思考,可以看左邊這個數據金字塔,從最底層的互聯網仿真數據,在冷啟動的時候會使用,真機數據是質量最高的,但它的泛化能力有問題,所以我們更多采用中間的真實數據,就是人可以戴著手套去采集。有兩個重要的點,第一個是現在硬件發展非???,現在硬件采集的數據三年后大概率不是這個硬件,所以數據怎么遷移是比較難的問題。第二個是必須有可移動式的數采方案。最右邊數據生成方式,我們怎么把人手數據真正在機器人上用起來,所以我們有一套相關的技術棧。

        還有數采手套的采集方式,它無需機器人就可以做數采,它的好處有三點,一個是成本,不用機器人在旁邊做遙操,只需要手套的成本,是傳統遙操的1/10,第二是支持戶外的大規模數采,第三是有非常高的自由度。這是模型在物流場景的采集過程,最左邊是在人采集數據的基礎上加上一套遙操數據,這是我們自研的一套遙操方案,右邊就可以通過真機強化學習來做最后的微調,直到最右邊真實部署的時候,就可以達到比較高的成功率和節拍,這里展示了物流分揀場景的作業。

        我們公司做的所有的動作,都是通過一個VLA模型,結合預訓練、后訓練、強化學習的技術來做的,這是當時在世界人工智能大會上的現場展示錄制,包含了商超打包的產品,有抓、掃碼、放置,最后有一個比較靈巧的對塑料袋進行打結。這里面最難的是最后一步掃碼,因為它需要識別出碼在哪里,在抓取的時候不抓到這個碼,以及最后掃的時候要定位的非常準確,必須通過大模型才能做到。這個打結也是一個比較全程的靈巧操作,需要比較精確的抓取,包括視覺和反饋,才能夠做的比較好。

        這是一些難以操作的,像手機這類物品,需要把它撥到桌邊再抓取,然后再遞給別人,這一套傳統的方法都比較難做,也是通過我們的大腦模型來完成的。這是麻將機器人,可以自主發牌、抓牌、打牌,在展會上有很多觀眾朋友一起體驗了。所有的這些技術都是通過強學習后訓練做的,然后我們自己收集數據,再通過大模型的后訓練技術,把整個麻將的策略、識別和具身聯動,全部訓練到了一個模型里面,才能完成這么一件事。整個操作也是非常長程的操作,因為要打完一整局需要很多次的抓、放、抽牌,以及雙手之間的交換,包括碰牌和杠牌,這都是不能被預設好的。

        然后是行業應用,剛剛說到了模型,我們更希望的不是純粹上來就收集一個仿真學,那樣難度太大,并且太陡峭,像自動駕駛的經驗,上來就做L4并不是一個好選擇,所以我們更傾向的是在場景中做整個閉環,我們雖然是一個細分場景,但非常有價值,我們把整個模型構建起來之后,再拿這些數據回流回來,最后慢慢擴大這個模型,所以我們一個比較看好的場景就是物流,因為物流的場景碰到的物體會比較多,衣服倉、化妝品倉,物體是比較泛化的,包括零售,現在碰到的物體以后大概率是在家庭中也能碰到的物體,還有很重要的一點是可以出海。這是我們的兩個場景,一個是眾包,一個是貨到人揀選,都是有希望能夠做出來的。

        商業主要有兩方面,第一個是數據,數據這個東西除了國內,國外的需求也是非常多的,據我們了解的一些市場價格,包括國外的大廠也在頻繁的收數據,我們認為數據的缺口非常大,但和他們交流下來,他們也不會要純粹數據中間商的數據,按他們的說法,必須要懂模型,必須要證明這個數據可以訓練出來模型,包括我們自己,因為我們自己也做訓仿真學所以我們有自己的數據,會有一部分的數據出海。第二個是物流,是我們比較看好也是短期能夠完成的場景,在海外也有非常多類似的客戶,像GXO、UPS等等,我們也是積極的在做。

        然后就是和騰訊云的合作,非常感謝騰訊云跟我們整個模型團隊一直長期的支持,對于VLA模型訓練來說,第一點最離不開的就是整套云的算力,騰訊云在這個過程中不僅給我們算法團隊非常多的支持,而且還跟我們做深入的技術交流,構建出一套對雙方都有用的技術積累和沉淀,為之后的具身或者整個智能體都有比較好的積累。

        第二個合作空間就是遙操作,對我們公司來說,長期的落地,具身是一個從0到1的東西,最后落地的時候,大概率會像智駕一樣,早期的時候會有安全員在后面接管,這時候遠程遙操接管方案非常重要,因為騰訊云的音視頻流技術非常先進,所以遙操的延時會非常低,我們會跟騰訊云有非常多的合作,希望后面能夠繼續合作,共同把具身智能這個賽道推向一個新的高度。

        謝謝大家。

         

        分享到:

        溫馨提示:以上內容和圖片整理于網絡,僅供參考,希望對您有幫助!如有侵權行為請聯系刪除!

        友情鏈接:

        最斩殴美精品一二三区_手机免费Av片在线播放_精品在线欧美一区二区_亚洲欧洲自拍拍偷午夜色无码_精品3d动画肉动漫在线无码_日本高清中文字幕二区不卡