人工智慧-強化學習演算法分類2

  • 回合更新和單步更新兩大類方法:
       在強化學習模型的訓練過程中,更新模型參數的方式有兩種,一種是回合更新,另一種是單步更新。單步更新意味著,在每一次模型和環境交互之後,立即更新參數。另一種是執行完一個行為序列,即多個交互之後,將梯度收集在一起,再作更新。這就好比玩遊戲,回合更新指的是在一個遊戲回合之後進行參數更新,單步更新指的是在每一步進行參數更新。實際上,在進行模型訓練的時候,會傾向於選擇可以單步更新的模型,因為單步更新的效率比回合更新要高一些。
  • On-Policy和Off-Policy的兩大類:

       你評估policy或者value-function的時候,需要用到一些樣本,這些樣本也是需要採用某種策略(可能固定、可能完全隨機、也可能隔一段時間調整一次)產生的。那麼,判斷on-policy和off-policy的關鍵在於,你所估計的policy或者value-function 和 你生成樣本時所採用的policy 是不是一樣。如果一樣,那就是on-policy的,否則是off-policy的。

                                                  圖1 off-policy的Q-learning、on-policy的sarsa

q-learning每次只需要執行一次動作得到(s,a,r,s')就可以更新一次;因為a'永遠是最優的那個action,因此你估計的策略應該是最優的,即Q_π *(s,a)。而你生成樣本時用的策略則不一定是最優的,因此是off-policy。sarsa必須執行兩次動作得到(s,a,r,s',a')才可以更新一次;而且a'是在特定π的指導下執行的動作,因此估計出來的Q(s,a)是在該π之下的Q-value,即Q_π(s,a)。樣本生成用的π和估計的π是同一個,因此是on-policy。

另一方面,如果sarsa每次的a'都選擇最優的,即特定的π是一個greedy的π,那麼sarsa和q-learning學到的Q-value就是一致的(但是兩者的性質仍然不同)。

所以說,基於experience replay的方法基本上都是off-policy的。

最後強化學習的分類整理如下:

強化學習模型分類

  • 通過value選行為:
  1. Q learning
  2. Sarsa
  3. Deep Q Network
  • 直接選行為:
  1. Policy Gradients
  • 想像環境並從中學習:
  1. Model based RL
  • 強化學習方法

不理解環境(Model-Free) vs 理解環境(Model-Based)

  • 不理解環境
  1. Q Learning
  2. Sarsa
  3. Policy Gradients

基於概率(Policy-Based) vs 基於價值(Value-Based)

  • 基於概率
  1. Policy Gradients
  • 基於價值
  1. Q Learning
  2. Sarsa
  • 兩者結合
  1. Actor-Critic
回合更新(Monte-Carlo update) vs 單步更新(Temporal-Difference update)l  

  • 回合更新
      1.  Monte-Carlo Learning
      2.  基礎版的 Policy Gradientsl  

  • 單步更新
     1.  Qlearning, Sarsa
     2.  升級版的 Policy Gradients
在線學習(On-Policy) vs 離線學習(Off-Policy)   
  • 在線學習
      1.  Sarsa
      2.  Sarsa lambdal  
  • 離線學習
      1.  Q Learning
      2.  Deep Q Network

 

★博文內容均由個人提供,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★文明上網,請理性發言。內容一周內被舉報5次,發文人進小黑屋喔~

評論