中大研發空間智能大模型　賦能機械人操作複雜任務

時間：2026-05-01 08:20:20來源：大公报

【大公報訊】記者郭如佳報道：香港中文大學工程學院團隊近日公布一項人工智能研究進展，提出具空間智能的視覺語言大模型（Vision-Language Models，VLM）新技術，嘗試解決機械人在三維環境中理解與操作能力不足的問題。

現時VLM已能處理語言指令與影像資訊，但往往難以準確判斷物件位置、方向及可操作性，限制了機械人執行複雜工作的能力。

結合語言理解與三維結構推理

中大研究團隊提出名為「檢索增強操作」（Retrieval-Augmented Manipulation，簡稱RAM）的技術框架，嘗試將語言理解及三維結構的推理能力兩者結合，核心在於讓機械人同時處理「做什麼」與「如何在空間中實現」兩個層面。團隊建立了一個結構化三維物件知識庫，當模型生成操作計劃時，系統會即時檢索相關物件資料，評估可行性及提供結構化參考。

負責研究的中大計算機科學與工程學系副教授竇琪認為，相關方法有助提升機械人在真實環境中的適應性。系統目前涵蓋31類物件，並在14項涉及空間感知的任務中驗證，結果顯示機械人能較準確理解指令及調整行動策略。

另一項技術重點在於視覺與觸覺的融合，系統設計預留擴展接口，可接入觸覺反饋，讓機械人在操作過程中調整力度與動作，提升精細操作的穩定性。

中大卓敏機械與自動化工程學教授兼香港物流機械人研究中心（HKCLR）總監劉雲輝表示，觸覺資訊有助機械人應對不確定環境，例如物件滑動或受力變化等情況。

該研究由HKCLR支持進行，並獲特區政府InnoHK創新香港研發平台資助。相關成果已於國際期刊《Science Robotics》發表。



大公產品

中大研發空間智能大模型　賦能機械人操作複雜任務

時間：2026-05-01 08:20:20來源：大公报

最新要聞

最受歡迎



大公產品

中大研發空間智能大模型 賦能機械人操作複雜任務

時間：2026-05-01 08:20:20來源：大公报

最新要聞

最受歡迎

中大研發空間智能大模型　賦能機械人操作複雜任務