現(xiàn)代機器人學習技術的兩大主要研究方向為強化學習和模仿學習。強化學習技術最早由加拿大計算機科學家Richard S. Sutton 和其博士階段導師Andrew G. Barto 所倡導,強化學習的基本模型構建在人類的認知心理學和行為科學的研究基礎之上。通過觀測人類和其他動物基于反饋的技能學習機制,強化學習將學習目標設定為最大化環(huán)境給予智能體特定行動的獎勵。智能體通過在環(huán)境中進行不斷的探索,逐步發(fā)現(xiàn)獎勵回報較高的區(qū)域,并在該區(qū)域附近進行更多的進一步的探索。如此反復,最終習得目標任務上的執(zhí)行策略。經(jīng)過數(shù)十年的發(fā)展,強化學習技術逐步演變出了基于值函數(shù)的方法,基于策略搜索的方法,基于模型的方法等子方向。
|
版權所有 © 上海昀景智能科技有限公司 地址:上海市閔行區(qū)顓興東路1331號706室 滬ICP備20012629號-1 |