[筆記] 機器學習: 強化學習 (Reinforcement Learning) - 以玩 space invaders 和下圍棋為例 @ Murphy 的書房

### Reinforcement Learning 的基本架構



Actor 的 input 是 observation

Actor 的 output 是 action

Reward 的 input 是 action 和 observation

對於 Actor 這個 function

  傳統是用 lookup table 實作; deep learning 時代主要是以 deep neural network 實作, 最後一個 layer 就是最後會採取的 action 類別, 並給予各個類別的 action 機率值, 以 sampling 的方式決定最後採取哪一種 action. 

  optimization 目標是 learn 出一組參數, 使得 total reward 越大越好

### 以玩 space invaders 為例





Actor: AI

Environment: 小蜜蜂電腦遊戲

Observation: 小蜜蜂電腦遊戲的畫面 (pixels)

Action: 向左、向右、開火

Reward: 畫面上增加的分數 (例如擊中外星人時，畫面上增加 5 分，則 reward 為 5)

目標是在遊戲結束時 (自己被擊中，或畫面上所有的外星人都被消滅)，總分 (Reward 的總和) 達到最高。



### 以下圍棋為例





Actor: AI

Environment: 人類棋手

Observation: 棋盤上的棋子以及所在的座標

Action: 放一個棋子到棋盤上

Reward: 如果贏了，得到 1 分；如果輸了，得到 -1 分。



### 參考資料

[YouTube] 【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟

Murphy 的書房

[筆記] 機器學習: 強化學習 (Reinforcement Learning) - 以玩 space invaders 和下圍棋為例

文章分類

搜尋此網誌

關於「Murphy的書房」