91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

小米發(fā)布開源Xiaomi-Robotics-0大模型 破解推理延遲痛點推動具身智能發(fā)展

   發(fā)布時間:2026-02-12 16:42 作者:馮璃月

小米公司近日宣布,正式推出并開源其首款機(jī)器人視覺語言動作(VLA)大模型Xiaomi-Robotics-0,標(biāo)志著具身智能領(lǐng)域迎來重要技術(shù)突破。該模型以47億參數(shù)規(guī)模實現(xiàn)視覺語言理解與實時動作執(zhí)行的深度融合,突破了傳統(tǒng)VLA模型因推理延遲導(dǎo)致的物理世界交互瓶頸,在消費級硬件上即可完成高效推理,多項性能指標(biāo)刷新行業(yè)紀(jì)錄。

傳統(tǒng)VLA模型雖具備強(qiáng)大的泛化能力,但高延遲問題嚴(yán)重制約了機(jī)器人在動態(tài)環(huán)境中的響應(yīng)速度。小米研發(fā)團(tuán)隊通過架構(gòu)創(chuàng)新破解這一難題,采用"大腦+小腦"雙核心設(shè)計:以多模態(tài)視覺語言模型(VLM)構(gòu)建認(rèn)知中樞,可解析人類模糊指令并識別復(fù)雜空間關(guān)系;通過多層擴(kuò)散變換器(DiT)搭建動作執(zhí)行模塊,利用"動作塊"生成技術(shù)與流匹配算法,確保機(jī)器人動作的精準(zhǔn)性與高頻性。這種混合架構(gòu)使模型在保持認(rèn)知能力的同時,將物理交互延遲降低至行業(yè)領(lǐng)先水平。

在訓(xùn)練體系方面,小米獨創(chuàng)跨模態(tài)兩階段訓(xùn)練法。預(yù)訓(xùn)練階段通過動作提議機(jī)制實現(xiàn)視覺特征與動作空間的深度對齊,在凍結(jié)VLM參數(shù)的前提下專項優(yōu)化DiT模塊,使模型同時掌握物體識別、邏輯推理與操作技能。后訓(xùn)練階段引入異步推理框架,結(jié)合清潔動作前綴與Λ型注意力掩碼技術(shù),有效解決真實機(jī)器人執(zhí)行中的動作斷層問題,既保證運動軌跡的連續(xù)性,又強(qiáng)化了對實時視覺反饋的響應(yīng)能力。

為推動技術(shù)生態(tài)建設(shè),小米已全面開源Xiaomi-Robotics-0的技術(shù)文檔、訓(xùn)練代碼及模型權(quán)重,提供完整的開發(fā)工具鏈支持。與此同時,小米機(jī)器人團(tuán)隊正式啟動全球人才招募計劃,面向計算機(jī)視覺、強(qiáng)化學(xué)習(xí)、機(jī)器人控制等領(lǐng)域?qū)<?,共同探索物理智能的前沿邊界。此次開源不僅為學(xué)術(shù)界提供重要研究基準(zhǔn),更為工業(yè)界落地具身智能應(yīng)用開辟了新路徑。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群