用户名: 密码: 验证码:
动态环境下数据驱动Q-学习算法
详细信息   全文下载|推荐本文 |
  • 出版年:2009
  • 作者:申元霞;王国胤
  • 单位1:西南交通大学信息科学与技术学院
  • 单位2:重庆邮电大学计算机科学与技术研究所重庆文理学院计算机学院
  • 出生年:1979
  • 学历:博士研究生
  • 语种:中文
  • 作者关键词:强化学习;数据驱动;Q-学习;不确定性
  • 起始页:877
  • 总页数:5
  • 经费资助:国家自然科学基金资助项目(60573068,60773113);重庆市自然科学基金资助项目(2008BA2017)
  • 刊名:西南交通大学学报
  • 是否内版:否
  • 刊频:双月刊
  • 创刊时间:1954
  • 主管单位:中华人民共和国教育部
  • 主办单位:西南交通大学
  • 主编:翟婉明
  • 地址:中国成都
  • 邮编:610031
  • 电子信箱:xbz@home.swjtu.edu.cn
  • 网址:http://journal.swjtu.edu.cn
  • 卷:44
  • 期:6
  • 期刊索取号:P806.6 210
  • 数据库收录:Ei Compendex收录期刊;中文核心期刊;中国科技论文统计源期刊;中国科学引文数据库来源期刊;德国数学文摘(Zbl MATH)收录期刊
  • 核心期刊:中文核心期刊
摘要
针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题,提出了一种数据驱动Q-学习算法.该算法首先构建智能体的行为信息系统,通过行为信息系统知识的不确定性建立环境触发机制;依据跟踪环境变化的动态信息,触发机制自适应控制对新环境的探索,使算法对未知动作的探索和已知最优动作的利用达到平衡.用于动态环境下迷宫导航问题的仿真结果表明,该算法达到目标的平均步长比Q-学习算法、模拟退火Q-学习算法和基于探测刷新Q-学习算法缩短了7.79%~84.7%.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700