中大研發 | 空間智能視覺語言大模型,顯著提升 AI 機械人完成複雜任務的能力
  • 2026-05-02 05:57

(上圖)劉雲輝教授(左三)、竇琪博士(右二)及其研究團隊成員

香港中文大學與國內外合作,成功研發具空間智能的視覺語言大模型,該模型讓機械人能像人類一樣理解三維空間資訊,支持可擴展的視觸融合能力,以自主完成涉及各類型物件的複雜長序列操作。研究成果已刊於《Science Robotics》

論文:

 

研究成果

機械人憑藉現時的視覺語言大模型,能準確理解人類的語言指令,但對物體之間的三維空間關係仍缺乏深入認知,難以準確規劃長序列的操作任務。

為了增強模型的空間理解能力,中大計算機科學與工程學系竇琪博士、香港物流機械人研究中心(HKCLR)總監劉雲輝教授及團隊,與加州大學伯克萊分校及浙江人形機器人創新中心有限公司等合作,提出名為「檢索增強操作」(Retrieval-Augmented Manipulation,RAM)的新方法。此一方法,使機械人在規劃操作任務過程中能同時回答「每一步該做什麼」及「在三維空間中怎樣做才可行」兩個關鍵問題。

它包括一個結構化的三維物件知識庫,記錄了日常生活常見物件的三維幾何形狀、擺放方式及可抓取部位。視覺語言大模型生成操作計劃時,可即時從該知識庫中檢索物體的幾何與操作紀錄,評估操作的可行性,以判斷實際可行的操作序列;同時將抽象的指令轉化成準確的空間描述,從而賦予 AI 機械人執行複雜任務的能力。

測試證實,RAM 技術具有廣泛的通用性和可擴展性,在涵蓋 31 個不同物體的 14 項空間感知操作任務中,RAM 成功讓機械人精確執行空間語言指令、推理三維空間關係,以及根據場景物理條件作出自適應操作。該技術可搭配現時市面通用的視覺語言大模型,並應用於通用的人形機械人平台,完成精細化且複雜的操作任務,包括自適應視觸融合抓取操作。

精確執行空間指令及進行自適應操作(左一、右二);
部署於通用人形機械人平台,完成精細化任務(左二);
結合觸覺反饋,實現自適應視觸融合的抓取操作(右一)

 

研究團隊

這項研究在中大創立的 InnoHK HKCLR 的支持下完成。論文第一作者是中大計算機科學與工程學系的 Kai Chen,通訊作者是竇琪博士。該中心總監是中大卓敏機械與自動化工程學教授劉雲輝教授。

 

 


如欲知道更多教科相關消息,請留意京港 Facebook 專頁:https://www.facebook.com/BHKAEC

返回頂部