Python/Pandas

Pandas란? 데이터 분석을 위한 필수 라이브러리

임베디드 친구 2025. 9. 24. 22:49
728x90
반응형

Pandas란? 데이터 분석을 위한 필수 라이브러리

데이터 분석을 위해 가장 널리 사용되는 Python 라이브러리 중 하나가 Pandas입니다. Pandas는 데이터를 효율적으로 다룰 수 있도록 도와주는 강력한 도구로, 표 형식의 데이터(데이터프레임)를 쉽게 조작하고 분석할 수 있도록 설계되었습니다.

1. Pandas의 특징

Pandas는 다양한 기능을 제공합니다. 대표적인 특징은 다음과 같습니다:

  • 데이터 구조 제공: SeriesDataFrame 같은 데이터 구조를 지원하여 다차원 데이터를 쉽게 다룰 수 있음.
  • 데이터 처리 기능: 필터링, 정렬, 그룹화, 집계, 결측값 처리 등의 다양한 기능 제공.
  • 파일 입출력 지원: CSV, Excel, SQL 등의 포맷으로 데이터를 저장하고 불러올 수 있음.
  • 고성능 연산: Numpy 기반으로 빠른 연산 성능을 제공함.
  • 다양한 시각화 기능: Matplotlib 및 Seaborn과 연동하여 데이터를 쉽게 시각화 가능.

2. Pandas 설치 및 기본 사용법

2.1 Pandas 설치하기

Pandas는 pip 명령어를 사용하여 쉽게 설치할 수 있습니다.

pip install pandas

설치가 완료되었는지 확인하려면 Python 환경에서 다음 명령을 실행하세요.

import pandas as pd
print(pd.__version__)

Pandas가 정상적으로 설치되었다면 버전 정보가 출력됩니다.

2.2 Pandas 기본 데이터 구조

Pandas의 주요 데이터 구조는 SeriesDataFrame입니다.

2.2.1 Series (1차원 데이터)

Series는 1차원 데이터를 다루는 구조로, 리스트나 배열과 유사하지만 인덱스를 포함합니다.

import pandas as pd

# 리스트를 이용한 Series 생성
s = pd.Series([10, 20, 30, 40])
print(s)

출력 결과:

0    10
1    20
2    30
3    40
dtype: int64

2.2.2 DataFrame (2차원 데이터)

DataFrame은 행과 열로 구성된 2차원 데이터 구조로, 엑셀 표와 비슷한 형태를 가집니다.

import pandas as pd

# 딕셔너리를 이용한 DataFrame 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

출력 결과:

     Name  Age         City
0   Alice   25    New York
1     Bob   30  Los Angeles
2  Charlie   35     Chicago

2.3 데이터 불러오기 및 저장하기

2.3.1 CSV 파일 불러오기

CSV 파일을 Pandas DataFrame으로 불러오는 방법입니다.

df = pd.read_csv('data.csv')
print(df.head())  # 상위 5개 행 출력

2.3.2 CSV 파일 저장하기

Pandas DataFrame을 CSV 파일로 저장하는 방법입니다.

df.to_csv('output.csv', index=False)

2.4 기본적인 데이터 조작

2.4.1 데이터 선택하기

print(df['Name'])  # 특정 열 선택
print(df.loc[0])   # 특정 행 선택 (라벨 기반)
print(df.iloc[1])  # 특정 행 선택 (인덱스 기반)

2.4.2 데이터 필터링

print(df[df['Age'] > 25])  # Age가 25보다 큰 행 선택

2.4.3 데이터 정렬

print(df.sort_values(by='Age', ascending=False))  # Age 기준 내림차순 정렬

2.4.4 결측값 처리

df.fillna(0)  # 결측값을 0으로 대체
df.dropna()   # 결측값이 있는 행 제거

2.5 데이터 집계 및 그룹화

2.5.1 데이터 집계

print(df['Age'].mean())  # 평균 나이 계산

2.5.2 데이터 그룹화

grouped = df.groupby('City').mean()
print(grouped)

3. 결론

Pandas는 데이터 분석을 쉽게 할 수 있도록 도와주는 강력한 라이브러리입니다. 이번 포스팅에서는 Pandas의 기본 개념과 설치 방법, 그리고 주요 기능에 대해 살펴보았습니다.

반응형

'Python > Pandas' 카테고리의 다른 글

JSON 파일 포맷 다루기  (0) 2025.09.28
Pandas로 Excel 파일 다루기  (0) 2025.09.27
Pandas로 CSV 파일 다루기  (0) 2025.09.26
Series와 DataFrame의 차이 및 기본 생성 방법  (0) 2025.09.25