반응형

분류 전체보기 968

Pandas 그룹화(groupby()) 및 집계 함수(agg(), mean(), sum())

Pandas 그룹화(groupby()) 및 집계 함수(agg(), mean(), sum())데이터 분석에서 데이터를 그룹화하고 특정 연산을 적용하는 것은 매우 중요한 과정입니다. Pandas의 groupby() 메서드를 활용하면 데이터를 특정 기준에 따라 그룹화하고 다양한 집계 함수를 적용할 수 있습니다. 이번 포스팅에서는 groupby()의 기본 개념과 함께 agg(), mean(), sum() 등의 집계 함수를 활용하는 방법을 살펴보겠습니다.1. groupby()란?groupby()는 데이터프레임에서 특정 열의 값을 기준으로 데이터를 그룹화하는 기능을 제공합니다. 그룹화한 후에는 각 그룹별로 다양한 연산을 수행할 수 있습니다.groupby() 기본 사용법import pandas as pd# 샘플 데이..

Python/Pandas 2025.10.12

NumPy로 배우는 선형대수 기초

NumPy로 배우는 선형대수 기초안녕하세요, "소프트웨어 공장"에 오신 것을 환영합니다! 오늘은 파이썬의 강력한 데이터 처리 라이브러리인 NumPy를 활용하여 선형대수의 기초를 살펴보겠습니다. NumPy는 벡터, 행렬, 그리고 다양한 수학 연산을 간단하고 효율적으로 처리할 수 있어 데이터 분석과 머신러닝에 필수적인 도구입니다.이번 포스팅에서는 다음과 같은 내용을 다룹니다:선형대수와 NumPy의 관계벡터와 행렬의 생성기본 연산역행렬과 행렬식고유값과 고유벡터1. 선형대수와 NumPy의 관계선형대수는 데이터 과학과 인공지능에서 핵심적인 역할을 합니다. 머신러닝 알고리즘의 많은 부분이 선형대수에 기반을 두고 있으며, 벡터와 행렬을 다루는 작업이 빈번하게 발생합니다. NumPy는 이러한 작업을 효율적으로 수행하기..

Python/NumPy 2025.10.12

Pandas 다중 인덱스 사용 (set_index(), reset_index())

Pandas 다중 인덱스 사용 (set_index(), reset_index())Pandas에서 다중 인덱스를 사용하면 데이터를 계층적으로 정리하여 더욱 직관적으로 분석할 수 있습니다. 다중 인덱스는 set_index()를 사용하여 설정할 수 있으며, 필요할 때 reset_index()를 통해 일반 인덱스로 변환할 수도 있습니다. 이번 글에서는 다중 인덱스를 설정하고 활용하는 방법을 예제와 함께 살펴보겠습니다.1. 다중 인덱스란?Pandas의 다중 인덱스(MultiIndex)는 하나 이상의 열을 인덱스로 설정하여 데이터를 계층적으로 표현할 수 있는 기능입니다. 예를 들어, 지역별, 연도별 매출 데이터를 다룰 때 다중 인덱스를 활용하면 분석이 더욱 쉬워집니다.2. set_index()를 활용한 다중 인덱스..

Python/Pandas 2025.10.11

NumPy로 분포별 난수 생성하기

NumPy로 분포별 난수 생성하기NumPy는 파이썬의 강력한 수치 계산 라이브러리로, 데이터 분석과 과학 계산에서 널리 사용됩니다. 이 포스팅에서는 NumPy의 난수 생성 기능 중에서 분포별 난수 생성 방법에 대해 다루어 보겠습니다. 특히, 균등 분포 (Uniform Distribution)와 정규 분포 (Normal Distribution)를 중심으로 설명하고, 각 분포의 특성과 사용 방법을 예제와 함께 알아보겠습니다.NumPy 난수 생성 개요NumPy는 numpy.random 모듈을 통해 다양한 난수를 생성할 수 있습니다. numpy.random은 다음과 같은 기능을 제공합니다:균등 분포 (Uniform Distribution)정규 분포 (Normal Distribution)이항 분포 (Binomia..

Python/NumPy 2025.10.11

Pandas에서 조건부 필터링 (Conditional Filtering)

Pandas에서 조건부 필터링 (Conditional Filtering)데이터 분석에서 특정 조건을 만족하는 데이터를 추출하는 작업은 매우 중요합니다. Pandas에서는 간단한 문법을 통해 조건을 기반으로 원하는 데이터를 필터링할 수 있습니다. 이번 포스팅에서는 df[df['column'] > value] 형태의 조건부 필터링 방법과 다양한 활용 예제를 살펴보겠습니다.1. 기본적인 조건부 필터링Pandas에서는 특정 열(column)의 값을 기준으로 데이터 프레임을 필터링할 수 있습니다. 가장 기본적인 방법은 아래와 같습니다.import pandas as pd# 예제 데이터 생성data = { '이름': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], '나이':..

Python/Pandas 2025.10.10

NumPy 시드 고정 및 난수 배열 생성하기

NumPy 시드 고정 및 난수 배열 생성하기데이터 분석과 머신러닝에서 재현성(reproducibility)은 매우 중요합니다. 같은 코드와 같은 데이터로 실행했을 때, 항상 동일한 결과가 나와야 실험의 신뢰성을 보장할 수 있기 때문입니다.Python의 대표적인 수치 계산 라이브러리인 NumPy는 난수(random number)를 생성하는 기능을 제공합니다. 하지만 이 난수는 기본적으로 실행할 때마다 달라집니다. 따라서, 재현 가능한 코드를 작성하려면 난수 시드(seed)를 고정해야 합니다. 이번 포스팅에서는 NumPy에서 시드를 고정하는 방법과 난수 배열을 생성하는 다양한 방법을 알아보겠습니다.1. 난수와 시드란?난수란 무엇인가요?난수는 무작위로 생성된 숫자를 말합니다. 하지만 컴퓨터에서 생성되는 난수는..

Python/NumPy 2025.10.10

Pandas에서 행과 열 선택: loc[], iloc[], at[], iat[]

Pandas에서 행과 열 선택: loc[], iloc[], at[], iat[]데이터 분석에서 특정 행과 열을 선택하는 것은 필수적인 과정입니다. Pandas에서는 loc[], iloc[], at[], iat[]을 제공하여 원하는 데이터를 효율적으로 선택할 수 있습니다. 이번 포스팅에서는 각 방법의 차이점을 예제와 함께 설명하겠습니다.1. 샘플 데이터 생성아래의 코드를 실행하여 샘플 DataFrame을 생성하겠습니다.import pandas as pd# 샘플 데이터 생성data = { "이름": ["김철수", "이영희", "박민준", "최다연", "정우성"], "나이": [25, 30, 22, 27, 35], "성별": ["남", "여", "남", "여", "남"], "점수": [9..

Python/Pandas 2025.10.09

NumPy 난수 생성 (random 모듈 사용)

NumPy 난수 생성 (random 모듈 사용)안녕하세요, "소프트웨어 공장"입니다! 오늘은 Python의 강력한 수치 계산 라이브러리인 NumPy에서 제공하는 random 모듈을 사용하여 난수를 생성하는 방법을 알아보겠습니다. 데이터 분석, 머신러닝, 시뮬레이션 등 다양한 응용 분야에서 난수는 필수적으로 사용됩니다. NumPy의 random 모듈은 이러한 작업을 효율적으로 수행할 수 있는 도구를 제공합니다.1. NumPy random 모듈 소개NumPy의 random 모듈은 난수를 생성하고 샘플링하는 데 유용한 함수들을 포함하고 있습니다. Python의 내장 random 모듈과 비교하여 다음과 같은 장점이 있습니다:빠른 실행 속도다양한 분포 지원 (정규분포, 이항분포, 푸아송분포 등)다차원 배열 지원사..

Python/NumPy 2025.10.09

Pandas 데이터 타입 변환 (astype()) - Pandas 데이터 변환과 가공

Pandas 데이터 타입 변환 (astype()) - Pandas 데이터 변환과 가공데이터 분석을 진행하다 보면 다양한 데이터 타입을 다뤄야 하며, 필요에 따라 데이터 타입을 변경해야 하는 경우가 많습니다. 예를 들어, 문자열로 저장된 숫자 데이터를 정수형으로 변환하거나, 실수형 데이터를 정수형으로 변환하는 등의 작업이 필요할 수 있습니다. Pandas의 astype() 메서드는 이러한 데이터 타입 변환을 간편하게 수행할 수 있도록 도와줍니다. 이번 포스팅에서는 astype()을 활용한 데이터 타입 변환 방법과 실전 예제를 살펴보겠습니다.1. astype() 메서드 개요Pandas의 astype() 메서드는 Series 또는 DataFrame의 데이터 타입을 원하는 타입으로 변환하는 데 사용됩니다. 기본..

Python/Pandas 2025.10.08

NumPy 누적 함수: cumsum과 cumprod

NumPy 누적 함수: cumsum과 cumprodNumPy는 파이썬에서 과학 계산을 수행하기 위한 강력한 라이브러리로, 다양한 수학적, 통계적 함수들을 제공합니다. 오늘은 그중에서도 누적 함수(cumsum, cumprod) 에 대해 알아보고, 이를 활용한 다양한 예제를 살펴보겠습니다.누적 함수란?누적 함수는 배열의 각 원소에 대해 이전 원소의 연산 결과를 누적하여 계산한 결과를 반환하는 함수입니다. 이를 통해 데이터의 누적 합계나 누적 곱을 구할 수 있습니다.cumsum: 누적 합cumsum은 배열의 원소를 순차적으로 더한 값을 반환합니다. 예를 들어, 배열 [1, 2, 3, 4]에 대해 cumsum을 적용하면 [1, 3, 6, 10]이 됩니다.cumprod: 누적 곱cumprod는 배열의 원소를 순차..

Python/NumPy 2025.10.08
반응형