人工智慧-Deep Deterministic Policy Gradient (DDPG)

關鍵字 :人工智慧 DDPG

Deep Deterministic Policy Gradient是延續著Actor-Critic的觀念而來，是融合了Actor-Critic與DQN的experience replay而演化而來的演算法，架構圖如下所示，一樣是有兩個網路，Critic計算動作的好壞，Actor根據Critic網路調整參數獲得更好的策略。

圖1 DDPG

而Deep Q-learning Network是一種 model free（無環境模型），off-policy（產生行為的策略和進行評估的策略不一樣）的強化學習算法。DDPG算法也是model free、off-policy的一種，且同樣使用了深度神經網絡用於函數近似。但與DQN不同的是，DQN只能解決離散且維度不高的action spaces的問題，而DDPG可以解決連續動作空間問題。另外，DQN是一個以值函數的網絡，而DDPG是Actor-Critic方法，即既有值函數網絡(critic)，又有策略網絡(actor)。

DDPG中的Actor-Critic之間的聯繫是這樣的：Critic網路更新方式與之前介紹的Actor-Critic網路更新方式一樣，差別在於此處引用了兩個網路(target與now)，這個概念源自於Double DQN，因為在DQN中發現一值更新同一個網路容易造成不穩定的現象，因此提出再創造一個網路(target)然後賦予相同的參數值，然後更新參數的時候更新原本的網路即可(now)，等訓練一段時間後再把現now網路的參數再賦予給target網路，這麼做可以使得訓練更穩定，因此選取q_{t+1}的値時是選擇選取target網路所給予的q值。

圖2 Critic Loss Function

Actor 更新是採取連續微分的方式計算出action應該變動的方向，首先必須終止梯度計算回傳遞到Actor網路，再來就是將Critic網路的梯度計算出來，然後再算出Actor網路da/dparams的微分，之後將兩者微分相乘並套用到Actor網路的參數上即可完成更新網路的動作了。

圖3 DDPG網路更新

DDPG的經驗回放這概念也是源自於DQN網路，在訓練的過程中會持續的收集經驗，並且會設定一個buffer size，這個值代表要收集多少筆經驗，每當經驗庫滿了之後，每多一個經驗則最先收集到的經驗就會被丟棄，因此可以讓經驗庫一值保持滿的狀態並且避免無限制的收集資料造成電腦記憶體塞滿。
學習的時候則是從這個經驗庫中隨機抽取成群(batch)經驗來訓練DDPG網路，周而復始的不斷進行學習最終網路就能達到收斂狀態，請參考下圖DDPG演算架構圖。

圖4 DDPG 演算架構圖

DQN在Q-Learning基礎上所做的改進：使用了深度神經網絡做函數近似；使用經驗回放；使用target網絡。 DDPG類似的也使用了深度神經網絡，經驗回放和target網絡。不過DQN中的target更新是hard update，即每隔固定步數更新一次target網絡，DDPG使用soft update，每一步都會更新target網絡，只不過更新的幅度非常小。

★博文內容均由個人提供，與平台無關，如有違法或侵權，請與網站管理員聯繫。

★文明上網，請理性發言。內容一周內被舉報5次，發文人進小黑屋喔~

人工智慧-Deep Deterministic Policy Gradient (DDPG)

評論