通过与环境交互学习最优策略
当前Episode
0
/ 1000
累积奖励
Total Reward
平均奖励
0.00
Avg Reward
输入层
256
隐藏层1
512
隐藏层2
输出层
128