Compressing Large Language Models by Joint Sparsification and Quantization

Published in ICML, 2024

Jinyang Guo, Jianyu Wu, Zining Wang, Jiaheng Liu, Ge Yang, Yifu Ding, Ruihao Gong, Haotong Qin, Xianglong Liu