핵심 요약데이터 병목 제거: num_workers와 pin_memory 설정을 통해 CPU-GPU 간 데이터 전송 효율을 극대화합니다.연산 가속화: Mixed Precision(AMP)과 cudnn.benchmark를 활용해 연산 속도를 높이고 메모리를 절약합니다.구조적 최적화: TorchScript 컴파일과 AdamW 옵티마이저를 통해 모델의 실행 성능과 수렴 속도를 개선합니다.1. 데이터 로딩 최적화: 병목 현상의 근원 해결GPU 연산 성능이 아무리 뛰어나도, 데이터를 읽어오는 속도가 느리면 GPU는 유휴 상태(Idle)가 됩니다.num_workers: CPU 코어 수에 맞춰 멀티 프로세싱을 활성화합니다. (보통 CPU 코어 수의 2~4배 권장)pin_memory=True: 데이터를 고정 메모리(Pi..