![]() |
人類可以通過觀察他人來學習技能。這種從觀察中學習的能力—被稱為視覺模仿[1]或第三人稱模仿[2]。視覺模仿一直是人工智能中一個重要的研究課題。視覺模仿先需要對演示者的視覺場景和隨時間產(chǎn)生的場景變化有細致的理解,然后模仿者在自己的環(huán)境中產(chǎn)生類似的變化。因此視覺模仿可以歸結(jié)為學習演示和模仿所處環(huán)境的視覺相似函數(shù),通過模仿者的動作行為將視覺相似函數(shù)取優(yōu)值,得到正確的模仿行為。視覺相似性函數(shù)需要決定視覺觀察中的哪些方面能夠再現(xiàn)演示的技能,即函數(shù)需要定義模仿什么和忽略什么。 PMLR2020收錄的《Graph-Structured Visual Imitation》中將視覺模仿作為視覺對應的問題,這篇論文基于計算機視覺方面的新進展,如人類手指關鍵點檢測器、合成增強實時訓練的目標檢測器、由視角變化[3]監(jiān)督的點檢測器和對每個演示所學習的多重視覺實體檢測器。機器人 agent得到獎勵的前提是其動作能夠很好匹配演示與模仿場景中視覺實體的空間對應關系。文中提出的對實體及其空間配置的因式視覺表征可以在幾分鐘內(nèi)成功地模仿各種操作技巧,并且只使用一次演示。該方法對復雜背景具有較強的魯棒性,即使演示與模仿之間存在環(huán)境差異,也能有效泛化。
|
版權(quán)所有 © 上海昀景智能科技有限公司 地址:上海市閔行區(qū)顓興東路1331號706室 滬ICP備20012629號-1 |