智能体在部分可观测马尔可夫环境下的学习问题是当今国际机器学习领域的一个难点与焦点问题,因此具有重要的理论价值。本课题主要研究SARSA激励学习算法;部分可观测马尔煞蚧肪车奶卣鳎蛔刺氩呗缘谋泶锬P停蝗死嘌暗男睦硌笛榧盎驹恚欢嘀悄芴宓南嗷プ饔糜胙暗奈侍猓约八惴ǖ氖迪趾拖喙氐氖樟残浴⒏丛有灾っ鞯任侍狻
英文主题词Agent; Reinforcement Learning; Partially Observable Markov Decision Processes (POMDPs)