已为您找到该学者8条结果 成果回收站
【期刊论文】马尔可夫决策过程基于TD(0)学习和性能势的NDP优化1)
韩江洪, 袁继彬, 唐昊
第二十三届中国控制会议论文集,808~812,-0001,():
-1年11月30日
在Markov性能势基础上讨论了一种基于强化学习的马尔可夫决策过程(MDP)优化方法。本文通过MDP的一个一致化链和Markov性能势的神经元网络逼近,重点研究了Critic模式下的一种神经元动态规划(NDP)优化方法,给出了用于平均代价准则和折扣代价准则MDP优化的参数化TD(0)学习规则和参数改进公式,并讨论了基于性能势的逼近策略迭代算法。文中最后给出一个数值仿真实例,实验结果表明平均准则下的NDP优化方法足折扣准则当折扣因子趋近于零的极限情况。
马尔可夫决策过程, 性能势, TD(, 0), 学习, 神经元动态规划
-
111浏览
-
0点赞
-
0收藏
-
0分享
-
13下载
-
0
-
引用
韩江洪, 陆阳, 魏臻
自动化学报,2003,29(2):234~241,-0001,():
-1年11月30日
SP函数是一类具有明确逻辑意义的线性可分结构系,PSP函数是SP函数的特殊子集。文中讨论了二进神经元对SP函数和PSP函数的表达问题,通过研究PSP函数分类超平面的某些性质,建立了SP函数和PSP函数的一般判别和构造方法。
二进神经网络, 线性可分, PSP函数, 规则提取
-
59浏览
-
0点赞
-
0收藏
-
0分享
-
37下载
-
0
-
引用
韩江洪, 陆阳, 魏臻, 高隽
计算机研究与发展,2002,39(1):79~86,-0001,():
-1年11月30日
剖析二进神经元的逻辑意义对二进神经网络的规则提取是十分重要的。在布尔空间中,汉明球是一种线性可分的空间结构,如何从汉明球中提取出具有清晰逻辑意义的规则是二进神经网络研究中的一个问题。通过对MofN规则表达形式的扩展,分析了汉明球的逻辑意义,提出了表达汉明球逻辑意义的LEM规则和GEM规则方法,并且讨论了汉明球和汉明补球的等价性。另一个重要的结果是证明了二进神经元和汉明球等价的充要条件,从而建立了判别汉明球的一般方法。
二进神经网络, 汉明球, 规则提取
-
45浏览
-
0点赞
-
0收藏
-
0分享
-
36下载
-
0
-
引用