Causal Reward World Models: Zero-shot Reward Design for Automated Skill Generation

Automated Reward Design (ARD) aims to replace manual reward engineering in reinforcement learning with language-driven reward function synthesis. However, existing approaches based on large language models (LLMs) remain inherently correlation-driven, relying on iterative environmental feedback to re...

Read Original Article →

Source

http://arxiv.org/abs/2606.23280v1