大公產品

首页 > 新闻 > 正文

中大研發空間智能大模型 賦能機械人操作複雜任務

時間:2026-05-01 08:20:20來源:大公报

【大公報訊】記者郭如佳報道:香港中文大學工程學院團隊近日公布一項人工智能研究進展,提出具空間智能的視覺語言大模型(Vision-Language Models,VLM)新技術,嘗試解決機械人在三維環境中理解與操作能力不足的問題。

現時VLM已能處理語言指令與影像資訊,但往往難以準確判斷物件位置、方向及可操作性,限制了機械人執行複雜工作的能力。

結合語言理解與三維結構推理

中大研究團隊提出名為「檢索增強操作」(Retrieval-Augmented Manipulation,簡稱RAM)的技術框架,嘗試將語言理解及三維結構的推理能力兩者結合,核心在於讓機械人同時處理「做什麼」與「如何在空間中實現」兩個層面。團隊建立了一個結構化三維物件知識庫,當模型生成操作計劃時,系統會即時檢索相關物件資料,評估可行性及提供結構化參考。

負責研究的中大計算機科學與工程學系副教授竇琪認為,相關方法有助提升機械人在真實環境中的適應性。系統目前涵蓋31類物件,並在14項涉及空間感知的任務中驗證,結果顯示機械人能較準確理解指令及調整行動策略。

另一項技術重點在於視覺與觸覺的融合,系統設計預留擴展接口,可接入觸覺反饋,讓機械人在操作過程中調整力度與動作,提升精細操作的穩定性。

中大卓敏機械與自動化工程學教授兼香港物流機械人研究中心(HKCLR)總監劉雲輝表示,觸覺資訊有助機械人應對不確定環境,例如物件滑動或受力變化等情況。

該研究由HKCLR支持進行,並獲特區政府InnoHK創新香港研發平台資助。相關成果已於國際期刊《Science Robotics》發表。

最新要聞

最受歡迎