《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 聯合隨機性策略的深度強化學習探索方法
聯合隨機性策略的深度強化學習探索方法
信息技術與網絡安全
楊尚彤,王子磊
(中國科學技術大學 網絡空間安全學院,安徽 合肥230027)
摘要: 目前深度強化學習算法已經可以解決許多復雜的任務,然而如何平衡探索和利用的關系仍然是強化學習領域的一個基本的難題,為此提出一種聯合隨機性策略的深度強化學習探索方法。該方法利用隨機性策略具有探索能力的特點,用隨機性策略生成的經驗樣本訓練確定性策略,鼓勵確定性策略在保持自身優勢的前提下學會探索。通過結合確定性策略算法DDPG和提出的探索方法,得到基于隨機性策略指導的確定性策略梯度算法(SGDPG)。在多個復雜環境下的實驗表明,面對探索問題,SGDPG的探索效率和樣本利用率要優于DDPG算法。
中圖分類號: TP18
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.06.008
引用格式: 楊尚彤,王子磊. 聯合隨機性策略的深度強化學習探索方法[J].信息技術與網絡安全,2021,40(6):43-49.
Efficient exploration with stochastic policy for deep reinforcement learning
Yang Shangtong,Wang Zilei
(School of Cyberspace Security,University of Science and Technology of China,Hefei 230027,China)
Abstract: At present, deep reinforcement learning algorithms have been shown to solve many complex tasks, but how to balance the relationship between exploration and exploitation is still a basic problem. Thus, this paper proposes an efficient exploration strategy combined with stochastic policy for deep reinforcement learning. The main contribution is to use the experience generated by stochastic policies to train deterministic policies, which encourages deterministic strategies to learn to explore while maintaining their own advantages. This takes advantage of the exploration ability of stochastic policies. By combining DDPG(Deep Deterministic Policy Gradient) and the proposed exploration method, the algorithm called stochastic guidance for deterministic policy gradient(SGDPG) is obtained. Finally, the results of the experiment in several complex environments show that SGDPG has higher exploration and sample efficiency than DDPG when faced with deep exploration problems.
Key words : reinforcement learning;deep reinforcement learning;exploration-exploitation dilemma

 0 引言

目前,強化學習(reinforcement learning)作為機器學習領域的一個研究熱點,已經在序列決策問題中取得了巨大的進步,廣泛應用于游戲博弈[1]、機器人控制[2]、工業應用[3]等領域。近年來,許多強化學習方法利用神經網絡來提高其性能,于是有了一個新的研究領域,被稱為深度強化學習(Deep Reinfor-

cement Learning,DRL)[4]。但是強化學習仍然面臨一個主要的問題:探索利用困境(exploration-exploitation dilemma)。在智能體學習過程中,探索(exploration)意味著智能體嘗試之前沒有做過的動作,有可能獲得更高的利益,而利用(exploitation)是指智能體根據之前的經驗選擇當前最優的動作。目前,深度強化學習方法的研究主要集中在結合深度學習提高強化學習算法的泛化能力,如何有效地探索狀態空間仍然是一個關鍵的挑戰。




本文詳細內容請下載:http://m.rjjo.cn/resource/share/2000003599




作者信息:

楊尚彤,王子磊

(中國科學技術大學 網絡空間安全學院,安徽 合肥230027)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 亚洲国产精品日韩在线观看 | 亚洲成a人在线观看 | 美女福利视频午夜在线 | 99国产精品久久久久久久日本 | 黄色三级免费 | 99精品在线观看视频 | 欧美日韩一区二区不卡三区 | a级毛片免费观看网站 | 怡红院在线观看 | 美女扒开腿让男人桶爽免费动态图 | 欧美第一视频 | 九九在线视频 | 欧美另类交视频 | 欧美亚洲综合视频 | 亚洲伊人久久综合影院2021 | 中日毛片| 日韩毛片基地 | 真实一级一级一片免费视频 | 精品视频亚洲 | 黄色三级国产 | 欧美色另类 | 久久伊人操| 91久久国产综合精品女同国语 | 国产激情视频网站 | 91视频18| 毛片精品 | 成人欧美一区二区三区视频 | 中文字幕亚洲一区二区三区 | 青青视频国产依人在线 | 日本三级香港三级三级人!妇久 | 欧美特黄高清免费观看的 | 国产三级精品播放 | 欧美视频精品在线 | 久草在线免费色站 | 色www永久免费 | 美女视频大全视频a免费九 美女视频大全网站免费 | 成人精品视频在线观看播放 | 日本一级毛片片在线播放 | 欧美成人精品高清在线播放 | 夜夜春夜夜夜夜猛噜噜噜噜噜 | 欧美一级特黄特黄做受 |