1806.08342v1, Quantizing Deep Convolutional Networks for Efficient Inference: A WhitePaper

Background
-> Deep NeuralNetwork(CNN)은 Edge Device나, Embedded Device에서 점진적으로 사용되고 있지만 모델 크기, 추론 속도, 전력 소비가 높은 점이 문제이다. FloatingPoint(32bit) 모델은 메모리와 계산 비용자체도 높아서 실시간 적용이 어렵다. 이 논문은 Quantization 방법을 사용한 Google의 Tensorflow, Tensorflow Lite에서 실제 적용 가능한 기술을 정리한 Whitepaper이다.

목표는 Post-Training Quantization(PTQ), Quantization Aware Training(QAT)를 통해서 8bit 정수로 변환하면서 FloatingPoint 대비 정확도를 높이고 손실을 최소화하며, 실제 하드웨어에서 2~10배 SpeedUp을 달성하는 것이다.
Problem
Method
-> Quantization 기법의 종합 가이드
3-1. Quantizer Design

3-2. Post Training Quantization(PTQ)

3-3. Quantization Aware Training(QAT)

3-4. Best Practices Recommendations
Result
-> Accuracy(ImageNet Top-1):
8bit PTQ:
8bit QAT:
4bit Weights(QAT):
SpeedUp:
Conclusion
->