반응형
Pandas 데이터 미리보기: head(), tail(), info(), describe()
데이터 분석을 시작할 때 가장 먼저 해야 할 일은 데이터의 구조와 내용을 파악하는 것입니다. Pandas 라이브러리는 데이터프레임을 탐색하고 정리하는 데 유용한 다양한 함수를 제공합니다. 이번 포스팅에서는 head()
, tail()
, info()
, describe()
함수의 사용법과 활용 방법을 살펴보겠습니다.
1. head(): 데이터의 일부 미리보기
head()
함수는 데이터프레임의 처음 몇 개의 행을 출력합니다. 기본적으로 5개 행을 반환하지만, 원하는 개수를 지정할 수도 있습니다.
예제 코드
import pandas as pd
# 샘플 데이터 생성
data = {
'이름': ['홍길동', '김철수', '이영희', '박민수', '최영호', '한수지'],
'나이': [25, 30, 24, 29, 35, 27],
'성별': ['남', '남', '여', '남', '남', '여'],
'점수': [85, 90, 78, 92, 88, 79]
}
df = pd.DataFrame(data)
# 데이터의 처음 5개 행 출력
print(df.head())
실행 결과
이름 나이 성별 점수
0 홍길동 25 남 85
1 김철수 30 남 90
2 이영희 24 여 78
3 박민수 29 남 92
4 최영호 35 남 88
활용 예시
- 데이터가 올바르게 로드되었는지 확인할 때
- 데이터의 컬럼 이름과 기본적인 구조를 파악할 때
- 데이터를 이해하고 분석 방향을 설정할 때
2. tail(): 데이터의 마지막 부분 미리보기
tail()
함수는 데이터프레임의 마지막 몇 개의 행을 출력합니다. 기본적으로 5개 행을 반환하며, 원하는 개수를 지정할 수도 있습니다.
예제 코드
# 데이터의 마지막 3개 행 출력
print(df.tail(3))
실행 결과
이름 나이 성별 점수
3 박민수 29 남 92
4 최영호 35 남 88
5 한수지 27 여 79
활용 예시
- 데이터의 끝 부분을 확인하여 누락된 값이 있는지 체크할 때
- 데이터가 예상한 형태로 정렬되어 있는지 검토할 때
- 최신 데이터를 빠르게 확인할 때
3. info(): 데이터의 기본 정보 확인
info()
함수는 데이터프레임의 구조, 데이터 타입, 결측값 여부 등을 확인하는 데 유용합니다.
예제 코드
# 데이터프레임의 기본 정보 출력
print(df.info())
실행 결과
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 이름 6 non-null object
1 나이 6 non-null int64
2 성별 6 non-null object
3 점수 6 non-null int64
dtypes: int64(2), object(2)
memory usage: 320.0 bytes
활용 예시
- 데이터의 전체적인 구조를 확인할 때
- 각 컬럼의 데이터 타입을 파악하여 적절한 전처리를 계획할 때
- 결측값이 존재하는지 확인할 때
4. describe(): 수치형 데이터의 통계 정보 확인
describe()
함수는 데이터프레임의 수치형 컬럼에 대한 요약 통계를 제공합니다.
예제 코드
# 수치형 데이터의 기본 통계 정보 출력
print(df.describe())
실행 결과
나이 점수
count 6.000000 6.000000
mean 28.333333 85.333333
std 4.037682 6.158681
min 24.000000 78.000000
25% 26.500000 79.500000
50% 28.000000 86.500000
75% 30.500000 90.000000
max 35.000000 92.000000
주요 통계 정보
count
: 데이터 개수mean
: 평균값std
: 표준 편차min
: 최솟값25%
,50%
,75%
: 사분위수max
: 최댓값
활용 예시
- 데이터의 분포를 빠르게 확인할 때
- 이상치(outlier)를 탐색할 때
- 데이터의 전반적인 특성을 파악할 때
결론
이번 포스팅에서는 Pandas를 사용하여 데이터를 미리보기 위한 핵심 함수인 head()
, tail()
, info()
, describe()
의 사용법과 활용 방법을 살펴보았습니다. 이 함수들은 데이터 분석의 첫 단계에서 매우 유용하게 활용되며, 데이터를 올바르게 이해하고 정리하는 데 필수적인 도구입니다.
데이터를 탐색하고 정리하는 과정에서 이 함수들을 적극적으로 활용하여 더 효율적인 분석을 수행해 보세요.
반응형
'Python > Pandas' 카테고리의 다른 글
Pandas 결측치 처리 (isna(), fillna(), dropna()) (0) | 2025.10.02 |
---|---|
웹에서 데이터 불러오기 (Pandas) (0) | 2025.09.30 |
Pandas SQL 파일 포맷 다루기 (0) | 2025.09.29 |
JSON 파일 포맷 다루기 (0) | 2025.09.28 |
Pandas로 Excel 파일 다루기 (0) | 2025.09.27 |