久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

小米開源VLA大模型Xiaomi-Robotics-0:兼具視覺語(yǔ)言理解與高性能實(shí)時(shí)執(zhí)行能力

   時(shí)間:2026-02-12 19:11 來源:快訊作者:江紫萱

小米今日正式發(fā)布開源視覺語(yǔ)言動(dòng)作(VLA)模型Xiaomi-Robotics-0,該模型以47億參數(shù)規(guī)模實(shí)現(xiàn)視覺語(yǔ)言理解與實(shí)時(shí)動(dòng)作執(zhí)行的雙重突破,在仿真測(cè)試與真實(shí)機(jī)器人任務(wù)中均刷新多項(xiàng)最優(yōu)成績(jī)。其核心創(chuàng)新在于構(gòu)建了"感知-決策-執(zhí)行"的完整閉環(huán)系統(tǒng),能夠在消費(fèi)級(jí)顯卡上完成每秒30幀以上的實(shí)時(shí)推理,為機(jī)器人物理智能的泛化應(yīng)用開辟新路徑。

模型架構(gòu)采用創(chuàng)新的Mixture-of-Transformers(MoT)設(shè)計(jì),通過雙模塊協(xié)同工作實(shí)現(xiàn)復(fù)雜任務(wù)處理。視覺語(yǔ)言大腦(VLM)模塊基于多模態(tài)大模型構(gòu)建,可解析"整理桌面"等模糊指令,并從4K分辨率的視覺輸入中識(shí)別物體空間關(guān)系。動(dòng)作執(zhí)行小腦(Action Expert)則引入多層Diffusion Transformer(DiT)結(jié)構(gòu),通過生成包含16個(gè)連續(xù)動(dòng)作的"動(dòng)作塊",配合流匹配技術(shù)確保毫米級(jí)操作精度。這種設(shè)計(jì)使機(jī)器人在疊毛巾任務(wù)中展現(xiàn)出類似人類的柔性操作能力,能自適應(yīng)調(diào)整力度防止織物撕裂。

針對(duì)傳統(tǒng)VLA模型訓(xùn)練中常見的"理解退化"問題,研發(fā)團(tuán)隊(duì)提出混合訓(xùn)練范式。在預(yù)訓(xùn)練階段,模型同時(shí)接觸1200萬幀機(jī)器人操作數(shù)據(jù)與2.3億張多模態(tài)圖像,通過動(dòng)作提議機(jī)制強(qiáng)制VLM特征空間與動(dòng)作空間對(duì)齊。專項(xiàng)訓(xùn)練階段則凍結(jié)VLM參數(shù),僅優(yōu)化DiT模塊的條件生成能力,最終實(shí)現(xiàn)98.7%的物體檢測(cè)準(zhǔn)確率與92.3%的視覺問答正確率。這種訓(xùn)練方式使模型在保持認(rèn)知能力的同時(shí),動(dòng)作生成頻率提升3倍。

為解決推理延遲導(dǎo)致的動(dòng)作卡頓,團(tuán)隊(duì)開發(fā)了異步推理框架與Clean Action Prefix技術(shù)。通過解除模型推理與機(jī)械臂運(yùn)動(dòng)的同步約束,配合將前序動(dòng)作作為輸入的軌跡平滑算法,使雙臂機(jī)器人在積木拆解任務(wù)中實(shí)現(xiàn)0.2秒內(nèi)的突發(fā)響應(yīng)。特殊設(shè)計(jì)的Λ形注意力掩碼進(jìn)一步強(qiáng)化模型對(duì)實(shí)時(shí)視覺反饋的關(guān)注度,在環(huán)境光線突變測(cè)試中,機(jī)器人動(dòng)作偏差率較傳統(tǒng)模型降低67%。

在性能驗(yàn)證環(huán)節(jié),Xiaomi-Robotics-0在LIBERO仿真環(huán)境中取得91.4%的任務(wù)完成率,較第二名模型提升14.2個(gè)百分點(diǎn)。真實(shí)場(chǎng)景測(cè)試中,雙臂機(jī)器人成功完成包含47個(gè)步驟的毛巾折疊任務(wù),操作精度達(dá)到0.5毫米級(jí)。多模態(tài)能力評(píng)估顯示,該模型在具身交互基準(zhǔn)測(cè)試中得分較基線模型提高31%,特別是在工具使用和空間推理等復(fù)雜場(chǎng)景中表現(xiàn)突出。

目前,小米已開放模型技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重。開發(fā)者可通過GitHub獲取基礎(chǔ)框架,在Hugging Face平臺(tái)下載完整模型包。該開源項(xiàng)目特別提供跨本體適配接口,支持機(jī)械臂、移動(dòng)機(jī)器人等不同形態(tài)設(shè)備的快速部署,為工業(yè)自動(dòng)化、家庭服務(wù)等場(chǎng)景提供可擴(kuò)展的智能解決方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容