PyTorch RNN, LSTM, GRU 개념 완벽 정리: 구조부터 차이점까지 한눈에 보기

Python for AI, Embedded/Deep Learning: PyTorch & AI Modeling

PyTorch RNN, LSTM, GRU 개념 완벽 정리: 구조부터 차이점까지 한눈에 보기

임베디드 친구 2026. 5. 16. 16:37

텍스트나 주가 데이터처럼 순서가 중요한 시퀀스 데이터를 다룰 때, 일반적인 인공신경망(DNN)으로는 한계를 느끼셨을 겁니다. 과거의 정보가 현재의 결과에 영향을 주는 데이터의 특성 때문인데요. 이를 해결하기 위해 등장한 혁신적인 구조가 바로 순환 신경망 계열의 모델들입니다.

이번 포스팅에서는 딥러닝으로 시퀀스 및 시계열 데이터를 처리할 때 반드시 알아야 하는 핵심 모델인 RNN, LSTM, GRU의 개념과 구조, 그리고 차이점을 명확하게 정리해 보겠습니다. PyTorch로 모델을 구현하기 전, 이론적 토대를 탄탄하게 다지는 계기가 되길 바랍니다.

📌 핵심 요약 3줄

RNN은 이전 시점의 은닉 상태를 공유하여 시퀀스 데이터를 처리하지만, 데이터가 길어지면 앞쪽 정보를 잊어버리는 장기 의존성 문제가 있습니다.

LSTM은 **셀 상태(Cell State)**와 **3개의 게이트(망각, 입력, 출력)**를 도입하여 긴 시퀀스에서도 중요한 정보를 오래 기억하도록 RNN의 단점을 극복했습니다.

GRU는 LSTM의 복잡한 구조를 **2개의 게이트(리셋, 업데이트)**로 간소화하여 성능은 비슷하게 유지하면서도 계산 속도를 크게 향상시켰습니다.

1. RNN (Recurrent Neural Network, 순환 신경망)

1.1 RNN의 개념

RNN은 말 그대로 '순환'하는 신경망입니다. 일반적인 신경망은 입력이 들어오면 출력층으로 한 방향으로만 데이터가 흐르지만, RNN은 은닉층의 결과가 다시 다음 시점의 은닉층 입력으로 들어가는 루프(Loop) 구조를 가집니다. 덕분에 이전 단계에서 처리한 정보를 기억하고, 현재의 출력에 반영할 수 있습니다.

1.2 RNN의 구조와 수식

RNN은 매 시점마다 새로운 입력값 $x_t$와 이전 시점의 은닉 상태(Hidden State) $h_{t-1}$를 함께 받아 현재의 은닉 상태 $h_t$를 갱신합니다.

$$h_t = \tanh(W_h h_{t-1} + W_x x_t + b)$$

$$y_t = \text{Softmax}(W_y h_t + c)$$

$h_t$: 현재 시점 $t$에서의 은닉 상태 (과거 정보들의 압축본)
$h_{t-1}$: 이전 시점 $t-1$에서의 은닉 상태
$x_t$: 현재 시점의 입력값
$W_h, W_x, W_y$: 학습 가능한 가중치 행렬
$b, c$: 편향(Bias)

1.3 RNN의 치명적인 한계

RNN은 구조가 직관적이지만 시퀀스가 길어질수록 치명적인 문제가 발생합니다. 역전파를 진행할 때 가중치들이 반복해서 곱해지다 보니, 앞쪽 시점의 정보가 뒤쪽까지 전달되지 못하는 장기 의존성(Long-Term Dependency) 문제가 생깁니다. 이 과정에서 기울기가 너무 작아져 사라지는 기울기 소실(Vanishing Gradient)이나, 반대로 너무 커져 폭발하는 기울기 폭발(Exploding Gradient) 현상이 발생합니다.

2. LSTM (Long Short-Term Memory, 장단기 메모리)

2.1 LSTM의 개념

RNN의 장기 의존성 문제를 해결하기 위해 등장한 것이 바로 LSTM입니다. 이름에서 알 수 있듯이 '긴 기억'과 '짧은 기억'을 모두 잘 다루도록 설계되었습니다. 핵심은 핵심 정보만 흐르는 고속도로 역할을 하는 셀 상태(Cell State)를 추가하고, 게이트(Gate)라는 구조를 통해 정보를 선택적으로 기억하거나 지우는 것입니다.

2.2 LSTM의 게이트 구조

LSTM은 내부적으로 3개의 게이트를 운영하며 정보를 제어합니다.

게이트 종류	역할	핵심 메커니즘
망각 게이트 (Forget Gate)	과거의 정보 중 버릴 것과 남길 것을 결정	시그모이드($\sigma$)를 거쳐 0에 가까우면 버리고, 1에 가까우면 살림
입력 게이트 (Input Gate)	현재 들어온 새로운 정보 중 셀 상태에 저장할 가치가 있는지를 결정	시그모이드와 $\tanh$의 조합으로 새로운 정보를 필터링
출력 게이트 (Output Gate)	갱신된 셀 상태를 바탕으로 다음 은닉 상태($h_t$)로 무엇을 보낼지 결정	다음 시점으로 보낼 최종 출력을 제어

2.3 LSTM의 수학적 표현

$$f_t = \sigma(W_f [h_{t-1}, x_t] + b_f) \quad \text{(망각 게이트)}$$

$$i_t = \sigma(W_i [h_{t-1}, x_t] + b_i) \quad \text{(입력 게이트)}$$

$$\tilde{C}_t = \tanh(W_c [h_{t-1}, x_t] + b_c) \quad \text{(새로운 후보 셀 상태)}$$

$$C_t = f_t * C_{t-1} + i_t * \tilde{C}_t \quad \text{(현재 셀 상태 갱신)}$$

$$o_t = \sigma(W_o [h_{t-1}, x_t] + b_o) \quad \text{(출력 게이트)}$$

$$h_t = o_t * \tanh(C_t) \quad \text{(최종 은닉 상태)}$$

3. GRU (Gated Recurrent Unit)

3.1 GRU의 개념

LSTM이 장기 기억 문제를 훌륭하게 해결했지만, 게이트가 3개나 되다 보니 가중치가 많아져 계산량이 무겁고 학습 속도가 느리다는 단점이 있었습니다. GRU는 이러한 LSTM의 성능을 거의 그대로 유지하면서, 구조를 가볍게 다이어트시킨 모델입니다. 별도의 셀 상태 없이 은닉 상태 하나로 정보를 통합 관리합니다.

3.2 GRU의 구조

GRU는 3개의 게이트 대신 2개의 게이트만 사용합니다.

리셋 게이트 (Reset Gate): 과거의 정보를 현재 시점에서 얼마나 무시할지 결정합니다.
업데이트 게이트 (Update Gate): 과거의 정보와 현재의 정보를 각각 몇 대 몇의 비율로 섞어서 다음 단계로 넘길지 결정합니다. (LSTM의 망각+입력 게이트 역할)

3.3 GRU의 수학적 표현

$$z_t = \sigma(W_z [h_{t-1}, x_t] + b_z) \quad \text{(업데이트 게이트)}$$

$$r_t = \sigma(W_r [h_{t-1}, x_t] + b_r) \quad \text{(리셋 게이트)}$$

$$\tilde{h}_t = \tanh(W_h [r_t * h_{t-1}, x_t] + b_h) \quad \text{(후보 은닉 상태)}$$

$$h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_t \quad \text{(최종 은닉 상태 갱신)}$$

4. RNN vs LSTM vs GRU 핵심 비교 일람표

세 가지 모델의 특징을 한눈에 볼 수 있도록 표로 정리해 보았습니다.

비교 항목	RNN	LSTM	GRU
구조의 복잡도	매우 단순함	복잡함	중간 (LSTM보다 단순)
기억 장치	은닉 상태 ($h_t$)	은닉 상태 ($h_t$), 셀 상태 ($C_t$)	은닉 상태 ($h_t$)
게이트 수	없음	3개 (Forget, Input, Output)	2개 (Reset, Update)
연산 속도	매우 빠름	느림	중간 (LSTM보다 빠름)
장기 기억 능력	부족함 (기울기 소실 발생)	매우 우수함	우수함 (LSTM과 유사)
데이터셋 추천	짧은 시퀀스 데이터	대용량 및 복잡한 시퀀스	데이터가 적거나 빠른 학습이 필요할 때

💡 개발을 위한 실전 팁 (PyTorch 구현 팁)

차원(Shape) 맞추기: PyTorch에서 nn.RNN, nn.LSTM, nn.GRU를 사용할 때 가장 헷갈리는 부분이 입력 데이터의 차원입니다. 기본 설정은 (시퀀스 길이, 배치 사이즈, 입력 특징 수)입니다. 만약 우리에게 익숙한 (배치 사이즈, 시퀀스 길이, 입력 특징 수) 형태로 데이터를 넣고 싶다면, 모델 선언 시 반드시 batch_first=True 옵션을 지정해 주어야 합니다.
초기 은닉 상태 처리: PyTorch 순환 신경망 모델들은 초기 은닉 상태($h_0$)를 입력하지 않으면 기본적으로 모든 값을 0으로 자동 초기화해 줍니다. 굳이 수동으로 초기화 텐서를 만들어 넣지 않아도 괜찮습니다.
일단 GRU부터 시작하기: 모델 선택이 고민된다면 가볍고 성능이 준수한 GRU를 베이스라인 모델로 먼저 학습시켜 본 뒤, 성능을 더 쥐어짜야 할 때 LSTM으로 넘어가는 방식을 추천합니다.

⚠️ 흔히 하는 실수

LSTM의 반환 값 오해: PyTorch에서 LSTM은 output, (h_n, c_n)이라는 두 가지 형태의 출력을 반환합니다. output은 모든 시점의 은닉 상태들이고, h_n과 c_n은 마지막 시점의 은닉/셀 상태입니다. 다대일(Many-to-One) 분류 문제를 풀 때는 전체 output이 아니라 마지막 시점의 은닉 상태인 h_n이나 output[:, -1, :]을 다음 선형 레이어(Linear)에 넘겨야 합니다.
Bidirectional 사용 시 차원 계산 오류: 양방향 순환 신경망(bidirectional=True)을 사용할 경우, 은닉 상태의 차원이 설정한 hidden_size의 2배가 됩니다. 이때 뒤이어 오는 Linear 레이어의 입력 차원도 2배로 넓혀주지 않으면 런타임 에러가 발생하므로 주의해야 합니다.

5. 결론

지금까지 시퀀스 데이터 처리의 뼈대가 되는 RNN부터 이를 보완한 LSTM, GRU의 개념까지 꼼꼼하게 살펴보았습니다. 최근에는 트랜스포머(Transformer) 기반의 모델들이 자연어 처리 분야를 주도하고 있지만, 가벼운 시계열 데이터나 실시간 센서 데이터를 다룰 때는 여전히 LSTM과 GRU가 훌륭한 가성비를 보여주고 있습니다. 각 모델의 게이트 메커니즘을 정확히 이해하고 데이터 특성에 맞춰 선택하는 것이 중요합니다.

저작자표시 비영리 변경금지 (새창열림)

'Python for AI, Embedded > Deep Learning: PyTorch & AI Modeling' 카테고리의 다른 글

PyTorch 이미지 분류 완벽 가이드: MNIST부터 CIFAR-10까지 한 번에 끝내기 (0)	2026.05.15
PyTorch로 시작하는 CNN 이미지 분류: 기초부터 실전 예제까지 (0)	2026.05.14
PyTorch CNN(합성곱 신경망) 완벽 가이드: 동작 원리부터 구현까지 (0)	2026.05.13
PyTorch 혼합 정밀도 학습(AMP)으로 딥러닝 학습 속도 2배 높이기 (0)	2026.05.12
PyTorch 모델 훈련 속도를 획기적으로 높이는 7가지 최적화 기법 (0)	2026.05.11

현재글PyTorch RNN, LSTM, GRU 개념 완벽 정리: 구조부터 차이점까지 한눈에 보기

소프트웨어 공장

임베디드 소프트웨어 개발을 위한 팁과 정보를 제공하는 '소프트웨어 공장'입니다. 함께 성장하는 개발 친구가 되어드릴게요!

온디바이스AI, android audio hal, android daemon, canopen, android system service, framework service, shell script, numpy array, can, NPU, FreeRTOS, compression algorithm, aws iot device, 딥러닝, android hal, AI, pytorch, 임베디드개발, CNN, ConstraintLayout,

Today :
Yesterday :

소프트웨어 공장