强化学习--策略网络--TensorFlow

本文介绍了如何利用TensorFlow来实现策略网络,重点在于 TensorFlow 的应用及其在强化学习中的策略网络构建过程。
摘要由CSDN通过智能技术生成

TensorFlow 实现策略网络

#baseline
import tensorflow as tf
import numpy as np
import gym
env = gym.make('CartPole-v0')
env.reset()
random_episodes = 0
reward_sum = 0
while random_episodes < 10:
    #env.render()
    observation,reward,done,_ = env.step(np.random.randint(0,2))
    reward_sum += reward
    if done:
        random_episodes += 1
        print('Reward for the episode was :',reward_sum)
        reward_sum = 0
        env.reset()
Reward for the episode was : 11.0
Reward for the episode was : 31.0
Reward for the episode was : 46.0
Reward for the episode was : 18.0
Reward for the episode was : 10.0
Reward for the episode was : 25.0
Reward for the episode was : 13.0
Reward for the episode was : 25.0
Reward for the episode was : 16.0
Reward for the episode was : 14.0
# 实现强化学习策略网络
#常用网络参数
H = 50#节点数
batch_size = 25
learning_rate = 0.1
D = 4 #观测维度
gamma = 0.99#Reward的discount比例
# 占位符  ---构建一个MLP
observations = tf.placeholder(tf.float32,[None,D],name='input_x')
w1 = tf.get_variable('w1',shape=[D,H],initializer=tf.contrib.layers.xavier_initializer())
layer1 = tf
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于强化学习的无线传感器网络路由协议研究 现有的临时路由协议基于节点之间链接的离散双峰模型:链接存在或断开。该模型通常仅将最新传输视为确定链路状态。不幸的是,该模型无法将由于干扰或拥塞而失败的传输与由于目标超出传输范围而失败的传输区分开。本文提出了一种基于连续(而不是离散)模型的网络中新的自组织路由协议。我们使用链接性能随时间的统计量度来表示链接的质量。 我们建议,这样的模型对于现实无线网络中的有效操作是必需的。 为了在具有可变质量链接的网络中定义最佳路由,我们将自组织路由建模为协作式强化学习问题。协作式强化学习描述了机器学习中的一类问题,其中代理试图通过反复试验和信息共享来优化其与动态环境的交互。我们为路由分配一个值,该值代表使用该路由的座席成本。因此,临时路由问题表示为路由值的优化。 我们的链接质量模型是一种统计模型,需要随着时间的推移收集数据。我们设计了一种学习策略,可收集有关可用路线及其链接质量的信息。该学习策略按需运行,仅针对正在使用的业务流收集信息,并与这些业务流的流量成比例地收集信息。该学习以在线方式完成:路由发现与数据包传递同时进行。 我们的学习策略大致基于群体智能的工作:那些设计受社会昆虫行为模型启发的系统。尤其是,我们将蚁群优化元启发式算法作为自组织路由学习问题的学习策略。在我们的协议中,协议路由的每个数据包都会导致网络路由策略的增量更改。我们发现,链路质量的连续模型在拥塞的多跳网络中非常有用。 双峰链路模型会将任何丢弃的数据包解释为指示节点移动性并触发整个网络的路由更新,而基于连续模型的路由协议则可以通过逐步调整其路由行为来响应丢弃的数据包。在NS-2中模拟的拥塞网络场景中,我们的协议在数据包传输率和路由流量方面的性能被发现优于AODV或DSR。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值