吉林大学学报(信息科学版)2023,Vol.41Issue(3):437-443,7.
基于相关熵诱导度量的近端策略优化算法
Proximal Policy Optimization Algorithm Based on Correntropy Induced Metric
摘要
关键词
KL散度/近端策略优化(PPO)/相关熵诱导度量(CIM)/替代目标/深度强化学习Key words
kullback-leibler(KL)divergence/proximal policy optimization(PPO)/correntropy induced metric(CIM)/alternative target/deep reinforcement learning分类
信息技术与安全科学引用本文复制引用
张会珍,王强..基于相关熵诱导度量的近端策略优化算法[J].吉林大学学报(信息科学版),2023,41(3):437-443,7.基金项目
黑龙江省自然科学基金资助项目(F2018004) (F2018004)