Variance-aware Reward Modeling with Anchor Guidance

Standard Bradley--Terry (BT) reward models are limited when human preferences are pluralistic. Although soft preference labels preserve disagreement information, BT can only express it by shrinking reward margins. Gaussian reward models provide an alternative by jointly predicting a reward mean and ...

Read Original Article →

Source

http://arxiv.org/abs/2605.11865v1