亚洲视频观看一区二区,日本一区二区三区精品福利视频

小米今日正式發(fā)布開源視覺語(yǔ)言動(dòng)作（VLA）模型Xiaomi-Robotics-0，該模型以47億參數(shù)規(guī)模實(shí)現(xiàn)視覺語(yǔ)言理解與實(shí)時(shí)動(dòng)作執(zhí)行的雙重突破，在仿真測(cè)試與真實(shí)機(jī)器人任務(wù)中均刷新多項(xiàng)最優(yōu)成績(jī)。其核心創(chuàng)新在于構(gòu)建了"感知-決策-執(zhí)行"的完整閉環(huán)系統(tǒng)，能夠在消費(fèi)級(jí)顯卡上完成每秒30幀以上的實(shí)時(shí)推理，為機(jī)器人物理智能的泛化應(yīng)用開辟新路徑。

模型架構(gòu)采用創(chuàng)新的Mixture-of-Transformers（MoT）設(shè)計(jì)，通過雙模塊協(xié)同工作實(shí)現(xiàn)復(fù)雜任務(wù)處理。視覺語(yǔ)言大腦（VLM）模塊基于多模態(tài)大模型構(gòu)建，可解析"整理桌面"等模糊指令，并從4K分辨率的視覺輸入中識(shí)別物體空間關(guān)系。動(dòng)作執(zhí)行小腦（Action Expert）則引入多層Diffusion Transformer（DiT）結(jié)構(gòu)，通過生成包含16個(gè)連續(xù)動(dòng)作的"動(dòng)作塊"，配合流匹配技術(shù)確保毫米級(jí)操作精度。這種設(shè)計(jì)使機(jī)器人在疊毛巾任務(wù)中展現(xiàn)出類似人類的柔性操作能力，能自適應(yīng)調(diào)整力度防止織物撕裂。

針對(duì)傳統(tǒng)VLA模型訓(xùn)練中常見的"理解退化"問題，研發(fā)團(tuán)隊(duì)提出混合訓(xùn)練范式。在預(yù)訓(xùn)練階段，模型同時(shí)接觸1200萬幀機(jī)器人操作數(shù)據(jù)與2.3億張多模態(tài)圖像，通過動(dòng)作提議機(jī)制強(qiáng)制VLM特征空間與動(dòng)作空間對(duì)齊。專項(xiàng)訓(xùn)練階段則凍結(jié)VLM參數(shù)，僅優(yōu)化DiT模塊的條件生成能力，最終實(shí)現(xiàn)98.7%的物體檢測(cè)準(zhǔn)確率與92.3%的視覺問答正確率。這種訓(xùn)練方式使模型在保持認(rèn)知能力的同時(shí)，動(dòng)作生成頻率提升3倍。

為解決推理延遲導(dǎo)致的動(dòng)作卡頓，團(tuán)隊(duì)開發(fā)了異步推理框架與Clean Action Prefix技術(shù)。通過解除模型推理與機(jī)械臂運(yùn)動(dòng)的同步約束，配合將前序動(dòng)作作為輸入的軌跡平滑算法，使雙臂機(jī)器人在積木拆解任務(wù)中實(shí)現(xiàn)0.2秒內(nèi)的突發(fā)響應(yīng)。特殊設(shè)計(jì)的Λ形注意力掩碼進(jìn)一步強(qiáng)化模型對(duì)實(shí)時(shí)視覺反饋的關(guān)注度，在環(huán)境光線突變測(cè)試中，機(jī)器人動(dòng)作偏差率較傳統(tǒng)模型降低67%。

在性能驗(yàn)證環(huán)節(jié)，Xiaomi-Robotics-0在LIBERO仿真環(huán)境中取得91.4%的任務(wù)完成率，較第二名模型提升14.2個(gè)百分點(diǎn)。真實(shí)場(chǎng)景測(cè)試中，雙臂機(jī)器人成功完成包含47個(gè)步驟的毛巾折疊任務(wù)，操作精度達(dá)到0.5毫米級(jí)。多模態(tài)能力評(píng)估顯示，該模型在具身交互基準(zhǔn)測(cè)試中得分較基線模型提高31%，特別是在工具使用和空間推理等復(fù)雜場(chǎng)景中表現(xiàn)突出。

目前，小米已開放模型技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重。開發(fā)者可通過GitHub獲取基礎(chǔ)框架，在Hugging Face平臺(tái)下載完整模型包。該開源項(xiàng)目特別提供跨本體適配接口，支持機(jī)械臂、移動(dòng)機(jī)器人等不同形態(tài)設(shè)備的快速部署，為工業(yè)自動(dòng)化、家庭服務(wù)等場(chǎng)景提供可擴(kuò)展的智能解決方案。

小米開源VLA大模型Xiaomi-Robotics-0：兼具視覺語(yǔ)言理解與高性能實(shí)時(shí)執(zhí)行能力