模型压缩系列视频

Posted on 2023-05-09 | In 模型压缩 | | 阅读数

模型压缩系列视频

PPT：https://github.com/chenzomi12/DeepLearningSystem/tree/main/Inference

模型压缩架构和流程介绍！量化/剪枝/蒸馏/二值化4件套

模型压缩架构和流程介绍！量化/剪枝/蒸馏/二值化4件套！【推理系统】模型压缩第01篇

低比特量化基本原理！

低比特量化基本原理！【推理引擎】模型压缩系列第02篇

量化原理

下图第二种是截断的方法，设置一个原始值的范围，映射到-127到127，超出这个范围的值就不要了。

第一种int类型表示，第二种uint类型表示；

求S和Z：

感知量化训练QAT原理！伪量化节点计算方式！

感知量化训练QAT原理！伪量化节点计算方式！【推理引擎】模型压缩系列第03篇

QAT：引入fake quant，作用是引入误差，视为“量化误差”，然后finetune模型，来适应这个误差。

正向传播中做了两个工作：1.记录最大最小值；2.量化模拟的操作（fp32量化成int8）

反向传播，直通，output导数等于intput的导数。但是做了一个截断操作

每个step都会有不同的min和max。

AI框架工作流程

QAT的衍生研究

训练后量化PTQ深度解读！与量化部署核心原理！

训练后量化PTQ深度解读！与量化部署核心原理！【推理引擎】模型压缩系列第04篇

设置不同量化里的saturation阈值，然后得到不同的量化结果，也就得到不同的量化分布，再用kl散度选最小的那个量化分布。

端侧量化推理部署

conv2D过程有int8 * int8，再用int8会溢出，因此用int32

2^8 *2 ^8 = 2^16？