POMDPs環境のための報酬獲得効率に基づく強化学習法

河合 宏和; 上野 敦志; 辰巳 昭治

doi:10.1527/tjsai.23.1

人工知能学会論文誌

Online ISSN : 1346-8030
Print ISSN : 1346-0714
ISSN-L : 1346-0714

J-STAGEトップ
/
人工知能学会論文誌
/
23 巻 (2008) 1 号
/
書誌

論文

POMDPs環境のための報酬獲得効率に基づく強化学習法

河合宏和, 上野敦志, 辰巳昭治

著者情報

ジャーナルフリー

2008 年 23 巻 1 号 p. 1-12

DOI https://doi.org/10.1527/tjsai.23.1

詳細

抄録

Reinforcement Learning (RL) methods are very hopeful because they can learn useful behavior based on rewards from environment by trial and error. This paper tackles more difficult problems than the ones tackled by many ordinary RL methods: RL in POMDP (Partially Observable Markov Decision Process) environments with multiple rewards.

著者関連情報

お気に入り & アラート

お気に入りに追加
追加情報アラート
被引用アラート
認証解除アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）