### Reinforcement Learning 的基本架構 Actor 的 input 是 observation Actor 的 output 是 action Reward 的 input 是 action 和 observation 對於 Actor 這個 function 傳統是用 lookup table 實作; deep learning 時代主要是以 deep neural network 實作, 最後一個 layer 就是最後會採取的 action 類別, 並給予各個類別的 action 機率值, 以 sampling 的方式決定最後採取哪一種 action. optimization 目標是 learn 出一組參數, 使得 total reward 越大越好 ### 以玩 space invaders 為例 Actor: AI Environment: 小蜜蜂電腦遊戲 Observation: 小蜜蜂電腦遊戲的畫面 (pixels) Action: 向左、向右、開火 Reward: 畫面上增加的分數 (例如擊中外星人時,畫面上增加 5 分,則 reward 為 5) 目標是在遊戲結束時 (自己被擊中,或畫面上所有的外星人都被消滅),總分 (Reward 的總和) 達到最高。 ### 以下圍棋為例 Actor: AI Environment: 人類棋手 Observation: 棋盤上的棋子以及所在的座標 Action: 放一個棋子到棋盤上 Reward: 如果贏了,得到 1 分;如果輸了,得到 -1 分。 ### 參考資料 [YouTube] 【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟