久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

小米機(jī)器人新突破:Xiaomi-Robotics-0發(fā)布,消費(fèi)級顯卡暢跑真機(jī)

   時間:2026-02-12 19:50 來源:快訊作者:陳陽

今日,小米在機(jī)器人領(lǐng)域拋出一枚重磅炸彈——小米機(jī)器人團(tuán)隊正式發(fā)布并開源全新具身智能VLA模型Xiaomi-Robotics-0,其真機(jī)運(yùn)行畫面首次對外公開,瞬間引發(fā)行業(yè)高度關(guān)注。

長久以來,機(jī)器人模型發(fā)展面臨諸多阻礙。一方面,傳統(tǒng)VLA模型雖參數(shù)規(guī)??捎^、泛化能力不錯,但在真實物理世界中,推理延遲高的問題極為突出,導(dǎo)致機(jī)器人動作斷斷續(xù)續(xù),如同“延遲卡頓的木偶”,難以像人類一樣自然流暢地操作,被網(wǎng)友戲稱為“反應(yīng)遲鈍的木頭人”。另一方面,具備高性能的模型往往依賴昂貴的專業(yè)顯卡才能運(yùn)行,普通開發(fā)者和小團(tuán)隊根本無力承擔(dān),使得先進(jìn)技術(shù)只能被困在實驗室,無法實現(xiàn)落地普及。不少模型還存在“仿真測試成績優(yōu)異,一上真機(jī)就表現(xiàn)不佳”的尷尬狀況,無法穩(wěn)定完成疊毛巾、拆積木等真實物理任務(wù),理論與實操嚴(yán)重脫節(jié)。

此次小米推出的Xiaomi-Robotics-0模型,正是為解決這些行業(yè)難題而來。該模型擁有47億參數(shù)規(guī)模,兼具視覺語言理解與高性能實時執(zhí)行能力。在Libero、Calvin、SimplerEnv三大全球主流具身智能測試集里,它對標(biāo)超過30款主流模型,在所有基準(zhǔn)測試中全部斬獲SOTA(State-of-the-Art,即當(dāng)前公開可驗證的最先進(jìn)、最高水平),真正實現(xiàn)了“仿真通、真機(jī)強(qiáng)、多模態(tài)能力不丟失”的重大突破。

Xiaomi-Robotics-0最具顛覆性的亮點(diǎn)在于,它能在普通消費(fèi)級顯卡上實現(xiàn)實時推理,一舉打破了高端機(jī)器人模型“只能實驗室跑、普通人用不起”的困境,大幅降低了具身智能技術(shù)的落地門檻。這意味著普通開發(fā)者無需斥巨資購買專業(yè)顯卡,也能讓模型穩(wěn)定運(yùn)行,為更多人參與機(jī)器人技術(shù)研發(fā)提供了可能。

小米能夠?qū)崿F(xiàn)這一突破,關(guān)鍵在于自研的Mixture-of-Transformers(MoT)混合架構(gòu)。這一架構(gòu)可看作是為機(jī)器人打造的“雙腦協(xié)同系統(tǒng)”,兼顧決策與執(zhí)行效率。其中,視覺語言大腦(VLM)負(fù)責(zé)理解人類指令和感知環(huán)境,即使面對“把毛巾疊好”這類模糊指令,也能精準(zhǔn)把握空間關(guān)系和任務(wù)目標(biāo),保留了多模態(tài)理解能力,這是此前許多VLA模型所不具備的優(yōu)勢。動作執(zhí)行小腦(DiT)則專注于將指令轉(zhuǎn)化為流暢動作,生成連續(xù)的“動作塊”,并通過流匹配技術(shù)確保動作精準(zhǔn)穩(wěn)定,讓機(jī)器人告別機(jī)械卡頓,動作靈活度接近人類,從根源上解決了傳統(tǒng)模型動作斷層的問題。

為了讓機(jī)器人既“聰明”又“能干”,小米團(tuán)隊還設(shè)計了獨(dú)特的兩階段訓(xùn)練方案。在第一階段,通過跨模態(tài)預(yù)訓(xùn)練,讓模型在學(xué)習(xí)動作的同時,不丟失物體識別、視覺問答等基礎(chǔ)能力,避免出現(xiàn)“練了手工、廢了腦子”的情況。同時,利用Action Proposal機(jī)制使VLM的特征空間與動作空間對齊,為后續(xù)實操奠定基礎(chǔ)。在第二階段,通過后訓(xùn)練優(yōu)化,采用異步推理模式從機(jī)制上解決真機(jī)“動作斷層”問題,搭配Clean Action Prefix讓動作軌跡連續(xù)不抖動,借助Λ-shape Attention Mask讓機(jī)器人聚焦當(dāng)前視覺反饋、擺脫歷史慣性,即使環(huán)境發(fā)生變化,也能即時調(diào)整,大幅提升環(huán)境適配能力。

從曝光的真機(jī)視頻中可以直觀看到,Xiaomi-Robotics-0模型在處理不同物體時表現(xiàn)出色。面對軟塌塌的毛巾,它會先鋪平,再對折、整理整齊,對于多余的毛巾還會主動放回原位;面對剛性積木,它能穩(wěn)妥地一步步拆解,手眼協(xié)調(diào)極為穩(wěn)定,不會出現(xiàn)卡頓或失誤。無論是軟質(zhì)材料還是硬質(zhì)物件,都能從容應(yīng)對,充分展現(xiàn)了物理智能真正落地的成果。

值得一提的是,小米此次展現(xiàn)出了強(qiáng)大的格局,將Xiaomi-Robotics-0成果全量開源。技術(shù)主頁、GitHub開源代碼、Hugging Face模型權(quán)重全部公開,全球開發(fā)者都能免費(fèi)使用、進(jìn)行二次開發(fā),相關(guān)資源可在各大平臺直接獲取。這一舉措徹底打破了大廠對具身智能核心技術(shù)的壟斷,讓原本高高在上的具身智能技術(shù)真正向行業(yè)敞開大門,普通開發(fā)者也能參與其中,加速整個行業(yè)的技術(shù)迭代。

雷軍在微博中透露,小米早已在機(jī)器人賽道深度布局,目前仍在全球招募頂尖人才,團(tuán)隊還在持續(xù)沖刺下一代技術(shù)。此次發(fā)布的Xiaomi-Robotics-0只是階段性研究成果,未來或許還會有更多驚喜等待著我們。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容