強(qiáng)化學(xué)習(xí)的基礎(chǔ)教程（共66頁(yè)pdf下載）

ID:295255 · 發(fā)表于 2018-3-21 21:49

強(qiáng)化學(xué)習(xí)的基礎(chǔ)教程

在DP和RL中，控制器（agent，決策者）與過(guò)程（環(huán)境）進(jìn)行交互，
通過(guò)3種信號(hào)：
在每個(gè)離散時(shí)間步，控制器接收來(lái)自過(guò)程的狀態(tài)測(cè)量值，并采取一個(gè)動(dòng)作，使得過(guò)程遷移到一個(gè)新?tīng)顟B(tài)，并產(chǎn)生一個(gè)獎(jiǎng)賞，其中獎(jiǎng)賞值用來(lái)評(píng)估狀態(tài)遷移的質(zhì)量。

控制器發(fā)出的行為指令是受控于策略的（從狀態(tài)到動(dòng)作的函數(shù)）。
過(guò)程的行為是由它的動(dòng)態(tài)性來(lái)描述的，對(duì)過(guò)程采取動(dòng)作（由控制器發(fā)出的指令）后，狀態(tài)如何變化。