Cascaded Multi-Granularity Pruning for On-Device LLM Inference in Industrial IoT

Deploying large language models (LLMs) on Industrial Internet of Things (IIoT) edge devices demands extreme compression, yet existing structured pruning methods collapse at high compression ratios due to one-shot importance estimation, and their cross-architecture behavior remains unpredictable. Thi...

Read Original Article →

Source

http://arxiv.org/abs/2606.26861v1