具身智能新突破：LWD系統賦能機器人，在真實世界“邊干邊學”持續進化-AI+-智快網

具身智能新突破：LWD系統賦能機器人，在真實世界“邊干邊學”持續進化

發布時間：2026-05-02 05:51 來源：快訊作者：趙云飛

具身智能領域正面臨一個關鍵挑戰：如何突破數據規模與真實世界經驗積累的瓶頸。盡管近年來VLA等大模型在機器人預訓練階段取得顯著進展，但當這些模型進入真實部署環境時，其能力提升仍面臨重重困難。傳統方法高度依賴人工標注數據和重復訓練，導致機器人難以適應復雜多變的物理世界，規?；鲩L進程受阻。

針對這一難題，上海創智學院與智元具身研究中心聯合推出了一項創新成果——LWD（Learning While Deploying）大規模強化學習訓練系統。該系統由羅劍嵐團隊研發，其核心思路是將機器人的部署過程轉化為持續學習的機會。通過讓機器人在真實場景中長期運行，系統能夠收集并回流交互經驗數據，使每臺機器人既成為任務執行者，又成為數據生產源，從而推動通用策略的不斷進化。

LWD系統構建了一個由真實世界強化學習驅動的閉環數據飛輪。與傳統模仿學習不同，該系統不再將非完美運行軌跡視為"廢數據"，而是將機器人集群在真實任務中積累的各類交互經驗——包括成功軌跡、試錯恢復過程以及人類引導的失敗案例——統一輸送至云端共享重放緩沖區。強化學習機制將這些數據轉化為優化模型的重要依據，使系統能夠規避錯誤、改進價值評估。隨著部署規模擴大和運行時間累積，數據飛輪加速運轉，云端更新的策略定期下發至機器人，形成自主優化閉環。

為應對真實世界部署中的極端算法挑戰，LWD引入了分布隱式價值學習（DIVL）算法。該算法突破了傳統方法的局限，使機器人能夠理解動作表現的"概率分布"而非單一"平均分"。這種改進讓機器人在稀疏獎勵環境下也能準確判斷動作風險，有效解決了評價不準和過度樂觀的問題。同時，系統結合Q-learning with Adjoint Matching（QAM）技術，為VLA模型找到策略更新的"捷徑"，通過局部調整實現快速迭代，顯著提升了大規模部署時的學習效率。

研究團隊在智元G1雙臂機器人集群上進行了大規模真實世界部署測試，驗證了LWD系統的實戰能力。測試涵蓋八項高難度多模態操作任務，包括商超貨架動態補貨、泡功夫茶、榨果汁、調酒和裝鞋入盒等。這些任務持續5至8分鐘，包含數十個接觸點且存在長程依賴關系，對機器人能力構成嚴峻考驗。

實驗結果顯示，LWD訓練出的單一通用策略在所有任務上平均成功率達到0.95，顯著優于純行為克?。?.76）和先進離線強化學習基線方法（RECAP 0.86，Dagger-SOP 0.82）。特別是在長程任務中，LWD在線更新后的成功率實現大幅提升，證明了基于真實物理交互的持續學習是突破復雜操作瓶頸的有效途徑。價值曲線分析進一步表明，系統學習到的價值能夠準確表征任務完成進度，為機器人提供了有意義的反饋信號。

這項成果標志著具身智能領域的一次重要轉向。傳統觀點將部署視為模型訓練的終點，而LWD系統證明，自主改進應成為通用機器人策略的基本屬性。通過賦予機器人在真實世界中持續提取"養分"、自我進化的能力，這項技術有望打破人工標注數據的限制，使機器人能夠在復雜開放場景中釋放更大的商業價值。

更多>同類內容