模型量化(quantization)——模型压缩方法之一瞥 视频

模型量化(quantization)——模型压缩方法之一瞥 视频

2023.4.27

b站:一了梁 模型量化(quantization)——模型压缩方法之一瞥 2020.7

量化对weight的值离散化,用更少的bit去保存weight,模型大小下降了,计算量“可能会变少”,这里用的可能,是因为由于实际计算时,有一个反量化回浮点型的过程(减去零点,乘以缩放因子)因此多了一些运算,所以计算量是可能会变少(变少是因为整型与浮点型计算相比好运算一点?)。

image-20230427143357597 image-20230427143427881 image-20230427144436962 image-20230427145149292 image-20230427150333852 image-20230427152222073 image-20230427153056151 image-20230427153130277 image-20230427153305246