已为您找到该学者8条结果 成果回收站
【期刊论文】马尔可夫决策过程基于TD(0)学习和性能势的NDP优化1)
韩江洪, 袁继彬, 唐昊
第二十三届中国控制会议论文集,808~812,-0001,():
-1年11月30日
在Markov性能势基础上讨论了一种基于强化学习的马尔可夫决策过程(MDP)优化方法。本文通过MDP的一个一致化链和Markov性能势的神经元网络逼近,重点研究了Critic模式下的一种神经元动态规划(NDP)优化方法,给出了用于平均代价准则和折扣代价准则MDP优化的参数化TD(0)学习规则和参数改进公式,并讨论了基于性能势的逼近策略迭代算法。文中最后给出一个数值仿真实例,实验结果表明平均准则下的NDP优化方法足折扣准则当折扣因子趋近于零的极限情况。
马尔可夫决策过程, 性能势, TD(, 0), 学习, 神经元动态规划
-
111浏览
-
0点赞
-
0收藏
-
0分享
-
13下载
-
0
-
引用
韩江洪, 陆阳, 魏臻
自动化学报,2003,29(2):234~241,-0001,():
-1年11月30日
SP函数是一类具有明确逻辑意义的线性可分结构系,PSP函数是SP函数的特殊子集。文中讨论了二进神经元对SP函数和PSP函数的表达问题,通过研究PSP函数分类超平面的某些性质,建立了SP函数和PSP函数的一般判别和构造方法。
二进神经网络, 线性可分, PSP函数, 规则提取
-
59浏览
-
0点赞
-
0收藏
-
0分享
-
37下载
-
0
-
引用
韩江洪, 陆阳, 魏臻, 高隽
计算机研究与发展,2002,39(1):79~86,-0001,():
-1年11月30日
剖析二进神经元的逻辑意义对二进神经网络的规则提取是十分重要的。在布尔空间中,汉明球是一种线性可分的空间结构,如何从汉明球中提取出具有清晰逻辑意义的规则是二进神经网络研究中的一个问题。通过对MofN规则表达形式的扩展,分析了汉明球的逻辑意义,提出了表达汉明球逻辑意义的LEM规则和GEM规则方法,并且讨论了汉明球和汉明补球的等价性。另一个重要的结果是证明了二进神经元和汉明球等价的充要条件,从而建立了判别汉明球的一般方法。
二进神经网络, 汉明球, 规则提取
-
45浏览
-
0点赞
-
0收藏
-
0分享
-
36下载
-
0
-
引用
韩江洪, 江波, 杜诗研, 张利
电子科技大学学报,2005,34(2):1~4,-0001,():
-1年11月30日
在分析家庭网络智能化需求的基础上,提出一种基于多Agent系统的智能家庭网络MAIHN模型,用Agent实现不同功能单元的控制与管理,通过MAS技术的思想、方法和体系建立智能家庭网络整体结构。给出了MAIHN模型的各个组成部分,对模型中各种Agent的功能设计与实现模型进行了分析,研究了MAIHN模型中的多Agent协作与通信策略,并设计了系统的实验原型。
智能家庭网络, 分布式, 多Agent系统, 多Agent通信
-
42浏览
-
0点赞
-
0收藏
-
0分享
-
140下载
-
0
-
引用
韩江洪, 陆阳, 张维勇, 蒋建国
计算机学报,1997,20(7):640~647,-0001,():
-1年11月30日
在工业控制系统中,将对逻辑测控过程的表述抽象成多值逻辑是一种准确而又便利的方法,同时,测控过程的多样性又使传统的利用程序设计语言中逻辑语句的软件设计方法很难适应对开放性的要求本文提出一种适合多值逻辑处理的数据结构和代数系统,并以此为基础,构造逻辑描述式,实现组合多值逻辑和时序多值逻辑的开放式设计
多值逻辑, 数据结构, 开放性, Disjoint代数
-
38浏览
-
0点赞
-
0收藏
-
0分享
-
78下载
-
0
-
引用