Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理下的應(yīng)用篇 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-22 09:59:06
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒(méi)反應(yīng),多刷新兩次就OK!)

強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理下的應(yīng)用篇 PDF 下載 圖1

 

 

資料內(nèi)容:

 

一、強(qiáng)化學(xué)習(xí)基礎(chǔ)面
1.1 介紹一下強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是一種時(shí)序決策學(xué)習(xí)框架,通過(guò)智能體和環(huán)境交互
 
1.2 介紹一下強(qiáng)化學(xué)習(xí) 的 狀態(tài)(States) 和 觀測(cè)(Observations)?
狀態(tài)(States):對(duì)于世界狀態(tài)的完整描述
觀測(cè)(Observations):對(duì)于一個(gè)狀態(tài)的部分描述,可能會(huì)缺失一些信息。當(dāng)O=S時(shí),稱O為完美信息/fully
observed;O<S時(shí),稱O為非完美信息/partially observed。
 
1.3 強(qiáng)化學(xué)習(xí) 有哪些 動(dòng)作空間(Action Spaces),他們之間的區(qū)別是什么?
離散動(dòng)作空間:當(dāng)智能體只能采取有限的動(dòng)作,如下棋/文本生成
連續(xù)動(dòng)作空間:當(dāng)智能體的動(dòng)作是實(shí)數(shù)向量,如機(jī)械臂轉(zhuǎn)動(dòng)角度
其區(qū)別會(huì)影響policy網(wǎng)絡(luò)的實(shí)現(xiàn)方式。
 
1.4 強(qiáng)化學(xué)習(xí) 有哪些 Policy策略?
確定性策略Deterministic Policy at = u(st),連續(xù)動(dòng)作空間
隨機(jī)性策略Stochastic Policy at ~ π(·|st) ,離散動(dòng)作空間