Python/Pandas

Pandas 데이터 미리보기: head(), tail(), info(), describe()

임베디드 친구 2025. 10. 1. 23:04
반응형

Pandas 데이터 미리보기: head(), tail(), info(), describe()

데이터 분석을 시작할 때 가장 먼저 해야 할 일은 데이터의 구조와 내용을 파악하는 것입니다. Pandas 라이브러리는 데이터프레임을 탐색하고 정리하는 데 유용한 다양한 함수를 제공합니다. 이번 포스팅에서는 head(), tail(), info(), describe() 함수의 사용법과 활용 방법을 살펴보겠습니다.

1. head(): 데이터의 일부 미리보기

head() 함수는 데이터프레임의 처음 몇 개의 행을 출력합니다. 기본적으로 5개 행을 반환하지만, 원하는 개수를 지정할 수도 있습니다.

예제 코드

import pandas as pd

# 샘플 데이터 생성
data = {
    '이름': ['홍길동', '김철수', '이영희', '박민수', '최영호', '한수지'],
    '나이': [25, 30, 24, 29, 35, 27],
    '성별': ['남', '남', '여', '남', '남', '여'],
    '점수': [85, 90, 78, 92, 88, 79]
}

df = pd.DataFrame(data)

# 데이터의 처음 5개 행 출력
print(df.head())

실행 결과

    이름  나이 성별  점수
0  홍길동  25  남  85
1  김철수  30  남  90
2  이영희  24  여  78
3  박민수  29  남  92
4  최영호  35  남  88

활용 예시

  • 데이터가 올바르게 로드되었는지 확인할 때
  • 데이터의 컬럼 이름과 기본적인 구조를 파악할 때
  • 데이터를 이해하고 분석 방향을 설정할 때

2. tail(): 데이터의 마지막 부분 미리보기

tail() 함수는 데이터프레임의 마지막 몇 개의 행을 출력합니다. 기본적으로 5개 행을 반환하며, 원하는 개수를 지정할 수도 있습니다.

예제 코드

# 데이터의 마지막 3개 행 출력
print(df.tail(3))

실행 결과

    이름  나이 성별  점수
3  박민수  29  남  92
4  최영호  35  남  88
5  한수지  27  여  79

활용 예시

  • 데이터의 끝 부분을 확인하여 누락된 값이 있는지 체크할 때
  • 데이터가 예상한 형태로 정렬되어 있는지 검토할 때
  • 최신 데이터를 빠르게 확인할 때

3. info(): 데이터의 기본 정보 확인

info() 함수는 데이터프레임의 구조, 데이터 타입, 결측값 여부 등을 확인하는 데 유용합니다.

예제 코드

# 데이터프레임의 기본 정보 출력
print(df.info())

실행 결과

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름     6 non-null      object
 1   나이     6 non-null      int64 
 2   성별     6 non-null      object
 3   점수     6 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 320.0 bytes

활용 예시

  • 데이터의 전체적인 구조를 확인할 때
  • 각 컬럼의 데이터 타입을 파악하여 적절한 전처리를 계획할 때
  • 결측값이 존재하는지 확인할 때

4. describe(): 수치형 데이터의 통계 정보 확인

describe() 함수는 데이터프레임의 수치형 컬럼에 대한 요약 통계를 제공합니다.

예제 코드

# 수치형 데이터의 기본 통계 정보 출력
print(df.describe())

실행 결과

             나이        점수
count   6.000000   6.000000
mean   28.333333  85.333333
std     4.037682   6.158681
min    24.000000  78.000000
25%    26.500000  79.500000
50%    28.000000  86.500000
75%    30.500000  90.000000
max    35.000000  92.000000

주요 통계 정보

  • count: 데이터 개수
  • mean: 평균값
  • std: 표준 편차
  • min: 최솟값
  • 25%, 50%, 75%: 사분위수
  • max: 최댓값

활용 예시

  • 데이터의 분포를 빠르게 확인할 때
  • 이상치(outlier)를 탐색할 때
  • 데이터의 전반적인 특성을 파악할 때

결론

이번 포스팅에서는 Pandas를 사용하여 데이터를 미리보기 위한 핵심 함수인 head(), tail(), info(), describe()의 사용법과 활용 방법을 살펴보았습니다. 이 함수들은 데이터 분석의 첫 단계에서 매우 유용하게 활용되며, 데이터를 올바르게 이해하고 정리하는 데 필수적인 도구입니다.

데이터를 탐색하고 정리하는 과정에서 이 함수들을 적극적으로 활용하여 더 효율적인 분석을 수행해 보세요.

반응형