ERPPO: Entropy Regularization-based Proximal Policy Optimization

Multi-Agent Proximal Policy Optimization (MAPPO) is a variant of the Proximal Policy Optimization (PPO) algorithm, specifically tailored for multi-agent reinforcement learning (MARL). MAPPO optimizes cooperative multi-agent settings by employing a centralized critic with decentralized actors. Howeve...

Read Original Article →

Source

http://arxiv.org/abs/2605.13131v1