핵심 요약학습 속도 향상: FP32 대신 FP16을 사용하여 GPU 연산 속도를 획기적으로 높입니다.메모리 효율화: 메모리 사용량을 줄여 더 큰 배치 사이즈(Batch Size)를 사용할 수 있습니다.간편한 구현: torch.cuda.amp 모듈을 통해 코드 몇 줄만으로 자동 혼합 정밀도(AMP) 학습이 가능합니다.1. 혼합 정밀도 학습(Mixed Precision Training)이란?혼합 정밀도 학습은 딥러닝 모델의 가중치와 연산 과정에서 FP32(32-bit floating point)와 FP16(16-bit floating point)을 혼합하여 사용하는 최적화 기법입니다.대부분의 연산(행렬 곱셈, 컨볼루션 등)은 FP16으로 처리하여 속도를 높이고, 정밀도가 중요한 손실(Loss) 계산이나 가중..