1806.08342v1, Quantizing Deep Convolutional Networks for Efficient Inference: A WhitePaper

  1. Background
    -> Deep NeuralNetwork(CNN)은 Edge Device나, Embedded Device에서 점진적으로 사용되고 있지만 모델 크기, 추론 속도, 전력 소비가 높은 점이 문제이다. FloatingPoint(32bit) 모델은 메모리와 계산 비용자체도 높아서 실시간 적용이 어렵다. 이 논문은 Quantization 방법을 사용한 Google의 Tensorflow, Tensorflow Lite에서 실제 적용 가능한 기술을 정리한 Whitepaper이다.

    목표는 Post-Training Quantization(PTQ), Quantization Aware Training(QAT)를 통해서 8bit 정수로 변환하면서 FloatingPoint 대비 정확도를 높이고 손실을 최소화하며, 실제 하드웨어에서 2~10배 SpeedUp을 달성하는 것이다.

  2. Problem

  3. Method
    -> Quantization 기법의 종합 가이드
    3-1. Quantizer Design

    3-2. Post Training Quantization(PTQ)

    3-3. Quantization Aware Training(QAT)

    3-4. Best Practices Recommendations

  4. Result
    -> Accuracy(ImageNet Top-1):
    8bit PTQ:
    8bit QAT:
    4bit Weights(QAT):
    SpeedUp:

  5. Conclusion
    ->