本篇文章1295字,读完约3分钟

原始链接视图)

目前,一点支持的算法可以在三种可调代理上运行。

第一个是dqn代理,可以实现深度q学习()和可变步长跟踪(-)、双dqn、可调对抗架构()等多种扩展功能。 dqn是非策略算法,默认情况下采用首选体验播放()实现。 dqn代理首先解决离散行为空之间的问题。

二是a2c代理,使用同步多步“主导行为的重要性”模型。 这是基于策略的算法。 (有关a2c和a3c的区别,请参见open ai/blog/baselines-ack tr-a2c/.的这篇博文)西伯利亚哈斯基使基于策略的算法变得简单,包括多个

三是ddpg代理,使用可变步长跟踪的深度显式策略梯度算法,默认情况下也采用优先体验再现。 DPG代理是为了解决连续行为空之间的问题而设计的。

shell可以方便地在多个cpu核心之间进行环境的动态并行计算。 这有助于加快战术算法,如a2c和ppo (从多个并发经验源学习数据)。 首先,如果要考虑并采用多个环境实例,只需要提供基于策略的代理和模拟器所需的数量的环境实例。 然后,在多个进程中分布由可用cpu核自动并行化的环境实例,然后在调用sim.train ( )函数时提供max_subprocesses参数所需的值,如以下代码片段所示

“huskarl 并行深度强化学习框架”

壳牌实现了战术算法加速的代码段(跳到原文看完整的代码)。

另外,请注意,每个环境实例采用不同的策略是非常简单的,它不提供策略对象,而只是提供策略列表。

学习16个环境实例,以外壳a2c代理并平衡cartpole。 其中,粗蓝线表示的是贪婪的目标战略所获得的报酬。 如果gaussianepsilon-greedy策略用于其他15种环境,平均值将从0变为1。

但是,在cartpole环境等简单环境中,强制并行采用多个过程会因过程间通信价格的增加而降低训练速度。 因此,这种多进程并行性只在计算价格高的环境中起着有益的作用。

所有运营代理都使用客户提供的神经互联网,因此依赖于各种问题规范。 这些神经互联网是多样性的(简单、简单、多、复杂、深入)。 代理通常会在提供的神经互联网中添加一层或多层,以正确执行期望的功能。 另外,所有的算法都完全利用了自定义keras的丢失,能够尽快简洁地执行。 目前有三个例子(每个代理一个)。 这些例子利用微小的、完全连接的互联网展示了代理的功能。 即使采用简单的模型,结果也不会改变。

“huskarl 并行深度强化学习框架”

目前,huskarl有深度学习网络( Dqn )、多步qn、两步QN、A2C ( A2C )、高级加速器( DDPG ) (深度学习)

未来计划

一种新的深度增强学习算法,如PPO (专业技术优化)、软件应用程序( SAC )和TD3 (三角网)。

另外,还计划引入好奇心和权利等内在奖励方法。 其目的是为了更容易地交换和组合深度强化学习算法的各种组成部分,如播放体验、奖金补助、代理任务(如乐高积木)等。 我们还计划将来开放源代码的多代理环境和unity3d环境。

“huskarl 并行深度强化学习框架”

原始地址

中等/ @张力流/工业血液调制-深度学习-框架- e 474 d 428 DD 3

github/danaugrs/huskarl

标题:“huskarl 并行深度强化学习框架”

地址:http://www.hongyupm.com/gnyw/6941.html