智能体在部分可观测马尔可夫环境下的激励学习研究-东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：立项数据库 > 立项详情页

智能体在部分可观测马尔可夫环境下的激励学习研究

项目名称：智能体在部分可观测马尔可夫环境下的激励学习研究
项目类别：面上项目
批准号：60075019
申请代码：F030504
项目来源：国家自然科学基金
研究期限：2001-01-01-2003-12-01

项目负责人：陈焕文
负责人职称：副教授
依托单位：长沙理工大学
批准年度：2000

中文摘要：

智能体在部分可观测马尔可夫环境下的学习问题是当今国际机器学习领域的一个难点与焦点问题，因此具有重要的理论价值。本课题主要研究SARSA激励学习算法；部分可观测马尔煞蚧肪车奶卣鳎蛔刺氩呗缘谋泶锬Ｐ停蝗死嘌暗男睦硌笛榧盎驹恚欢嘀悄芴宓南嗷プ饔糜胙暗奈侍猓约八惴ǖ氖迪趾拖喙氐氖樟残浴⒏丛有灾っ鞯任侍狻

中文主题词：智能体；激励学习；部分可观测马尔可夫决策过程

结论摘要：

英文主题词Agent; Reinforcement Learning; Partially Observable Markov Decision Processes (POMDPs)

成果综合统计

期刊论文
会议论文
专利
获奖
著作

21
9
0
0
0

激励学习的广义平均算法及其收敛性

基于有限样本的最优费用关联值递归Q学习算法

基于每阶段平均费用最优的激励学习算法

一类基于有效跟踪的广义平均奖赏激励学习算法

样本有限关联值递归Q学习算法及其收敛性证明

部分可观测Markov 环境下的激励学习综述

折扣与无折扣MDPs：一个基于SARSA(()算法的实例分析

平均奖赏MDPs的在策略无模型激励学习算法

一类值函数激励学习的遗忘算法

一个因素化SARSA(()激励学习算法

激励学习的最优判据研究

基于Ｑ-学习的非线性控制

Solution to reinforcement learning problems with artificial potential field

基于RL算法的自学习博弈程序设计及实现

基于Snake模型的虹膜定位算法

乳头丘脑束损伤对大鼠内源性注意的影响

基于PSO和共轭梯度法的MIP路由优化方案

“比较治疗学”的原理与方法浅析

癫痫预测方法的分析与研究

“比较治疗学”与“循证医学”之比较

脑电图分析的方法论

会议论文

一类激励学习问题的马尔可夫决策过程描述与求解方法

S(()：一个基于平均奖赏MDPs的激励学习算法

智能体激励学习问题及马尔科夫决策过程的作用

智能体的内部状态表达

Utility Clustering for reinforcement learning with partial observability

层次化与记忆结合的激励学习

TD方法与BP神经网络结合构造预测学习系统的算法分析与实现

Reinforcement learning with forgetting for solving POMDPs

在策略激励学习算法的POMDPs实验研究

相关项目

分布式智能异构数据集成支持系统的研究

期刊论文 48

智能机器人行为动力学机理研究

期刊论文 24 会议论文 3

基于关系理论的多智能体系统中的意图结构理论

期刊论文 6 会议论文 1

基于Agent的动态Web服务组合自适应演化机制研究

期刊论文 31 会议论文 5 专利 2

基于虚拟地理环境的SARS传播与控制模拟研究

期刊论文 35 会议论文 10

仿免疫系统可生存IP/WDM光网络研究

期刊论文 6 会议论文 4 专利 4

基于智能体的网民群体信息传播动力学研究

期刊论文 35 会议论文 9

可信赖Web服务选择与协作关键技术研究

期刊论文 14 会议论文 6

面向分布式制造调度的适应性协商机制研究

期刊论文 5 会议论文 1

陈焕文的项目