动态环境下数据驱动Q-学习算法

设为首页

收藏本站

网站地图 | English | 公务邮箱

远程访问

NSTL服务站

动态环境下数据驱动Q-学习算法

详细信息全文下载|推荐本文 |

出版年：2009
作者：申元霞；王国胤
单位1：西南交通大学信息科学与技术学院
单位2：重庆邮电大学计算机科学与技术研究所重庆文理学院计算机学院
出生年：1979
学历：博士研究生
语种：中文
作者关键词：强化学习；数据驱动；Q-学习；不确定性
起始页：877
总页数：5
经费资助：国家自然科学基金资助项目（60573068，60773113）；重庆市自然科学基金资助项目（2008BA2017）
刊名：西南交通大学学报
是否内版：否
刊频：双月刊
创刊时间：1954
主管单位：中华人民共和国教育部
主办单位：西南交通大学
主编：翟婉明
地址：中国成都
邮编：610031
电子信箱：xbz@home.swjtu.edu.cn
网址：http://journal.swjtu.edu.cn
卷：44
期：6
期刊索取号：P806.6 210
数据库收录：Ei Compendex收录期刊；中文核心期刊；中国科技论文统计源期刊；中国科学引文数据库来源期刊；德国数学文摘(Zbl MATH)收录期刊
核心期刊：中文核心期刊

摘要

针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题，提出了一种数据驱动Q-学习算法.该算法首先构建智能体的行为信息系统，通过行为信息系统知识的不确定性建立环境触发机制；依据跟踪环境变化的动态信息，触发机制自适应控制对新环境的探索，使算法对未知动作的探索和已知最优动作的利用达到平衡.用于动态环境下迷宫导航问题的仿真结果表明，该算法达到目标的平均步长比Q-学习算法、模拟退火Q-学习算法和基于探测刷新Q-学习算法缩短了7.79%～84.7%.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700