摘要:Q-learning是一種經典的增強學習算法,簡單易用且不需要環境模型;廣泛應用于移動機器人路徑規劃。但在狀態空間和動作空間較大時,經典的Q-learning算法存在學習效率低、收斂速度慢,容易陷入局部最優解等問題。通過引入神經網絡模型,利用地圖信息計算狀態勢值,從而優化了設計獎勵函數。合理獎勵函數為Q(λ)-learning算法提供了先驗知識,避免訓練中的盲目搜索,同時獎勵函數激勵避免了陷入局部最優解。仿真試驗表明,改進的路徑規劃方法在收斂速度方面有很大的提升,訓練得到的路徑為全局最優。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
自動化與儀表雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:專題研究與綜述、控制系統與智能制造、人工智能與機器人、檢測技術與數據處理、儀表與自動化裝置、系統建模、仿真與分析、創新與實踐等。于1981年經新聞總署批準的正規刊物。