From Correlation to Cause: A Five-Stage Methodology for Feature Analysis in Transformer Language Models

We propose a five-stage methodology for causal feature analysis in transformer language models (probe design, feature extraction, causal validation, robustness testing, and deployment integration) and demonstrate it end-to-end on GPT-2 small performing the Indirect Object Identification (IOI) task. ...

Read Original Article →

Source

http://arxiv.org/abs/2605.22462v1