1. 개요 및 작성 배경딥러닝 모델의 성능이 날이 갈수록 발전하면서 모델의 크기와 연산량도 함께 비대해지고 있습니다. 이로 인해 서버 비용이 증가할 뿐만 아니라, 스마트폰이나 임베디드 기기 같은 자원이 제한된 환경(On-Device AI)에 모델을 배포하는 데 큰 걸림돌이 되고 있습니다. 따라서 모델의 정확도는 최대한 유지하면서 크기를 줄이고 연산 속도를 높이는 '모델 경량화 및 최적화' 기술은 이제 선택이 아닌 필수입니다. 본 글에서는 PyTorch 환경에서 바로 적용할 수 있는 대표적인 3대 경량화 기법인 양자화(Quantization), 가지치기(Pruning), 지식 증류(Knowledge Distillation)의 개념을 살펴보고 실무 핵심 코드를 공유합니다.핵심 요약 3줄양자화(Quantiza..