强化学习

通过与环境交互学习最优策略

环境配置

0.1

训练控制

训练进度

当前Episode

0

/ 1000

累积奖励

0

Total Reward

平均奖励

0.00

Avg Reward

训练进度0%

策略网络架构

输入层

256

隐藏层1

512

隐藏层2

256

输出层

128

激活函数ReLU
优化器Adam
批次大小64
经验回放10000

性能指标

策略稳定性87%
收敛速度92%
样本效率78%
泛化能力85%