판다스 DataFrame 완전 정복! 데이터 탐색의 모든 것 🚀

판다스 DataFrame 완전 정복! 데이터 탐색의 모든 것 🚀

Python 2025. 4. 25. 14:02
반응형
데이터 분석을 시작할 때, 여러분은 어떤 질문을 던지나요?
"이 데이터는 어떤 구조지?"
"결측치는 얼마나 있지?"
"평균, 최댓값, 최솟값은?"
이 모든 궁금증을 단 몇 줄의 코드로 해결할 수 있다면 얼마나 좋을까요?
오늘은 파이썬 데이터 분석의 필수 라이브러리, 판다스(Pandas)의 DataFrame에서 자주 쓰는 탐색 함수들을 쉽고 흥미롭게 소개합니다!
데이터 초보자도, 경력자도 모두 알아두면 좋은 꿀팁이니 끝까지 집중해주세요! 😎
1. 데이터 미리보기: head()와 tail() 🕵️‍♂️

처음 데이터를 불러왔을 때, 전체를 다 보면 머리가 아프겠죠?
이럴 땐 head()와 tail() 함수로 데이터의 앞뒤를 살짝 들여다보세요!
# 상위 5개 행 미리보기 df.head() # 하위 3개 행 미리보기 df.tail(3)

head(): 데이터의 상위 n개 행(기본 5개)을 보여줘요.

tail(): 하위 n개 행을 보여주니, 데이터의 끝부분이 궁금할 때 딱!

📝 TIP: 데이터가 시간순으로 정렬되어 있다면, tail()로 최신 데이터를 바로 확인할 수 있어요!

2. 데이터 구조 한눈에 보기: info()와 describe() 🧑‍💻
데이터의 전체적인 윤곽을 파악하려면?
info()와 describe()를 꼭 써보세요!
# 데이터 요약 정보 df.info() # 수치형 데이터 통계 요약 df.describe()

info():

행/열 개수, 각 열의 이름과 타입, 결측치 유무, 메모리 사용량까지 한 번에!

describe():

평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 사분위수(25%, 50%, 75%) 등 주요 통계 정보를 자동으로 계산해줘요.

범주형 데이터도 df.describe(include='object')로 요약 가능!

📊 실전 예시:
"우리 데이터에 결측치가 많을까?"
→ df.info()
"각 열의 평균과 분포가 궁금해!"
→ df.describe()

3. 데이터 크기와 구조: shape, columns, index, dtypes 📏
데이터의 뼈대를 파악하는 것도 중요하죠!
df.shape # (행, 열) 튜플 반환 df.columns # 열 이름 리스트 df.index # 행 인덱스 정보 df.dtypes # 각 열의 데이터 타입

shape: 데이터가 몇 행, 몇 열인지 알려줘요.

columns: 열 이름을 한눈에!

index: 행의 인덱스(번호)도 확인 가능.

dtypes: 숫자인지, 문자열인지 데이터 타입을 체크!

4. 결측치와 고유값: isnull(), value_counts() 🧐
데이터에 빈 값이 있으면 분석에 큰 영향을 미칠 수 있어요.
isnull()로 결측치를, value_counts()로 값의 분포를 확인하세요!
df.isnull().sum() # 각 열별 결측치 개수 df['컬럼명'].value_counts() # 해당 열의 값별 개수

isnull(): 결측치가 있으면 True, 없으면 False!

value_counts(): 각 값이 몇 번 나오는지, 비율(normalize=True)도 확인 가능!

5. 기본 통계 함수 총정리! 🏆
판다스에는 다양한 통계 함수가 내장되어 있어요.
count() 데이터 개수
sum() 합계
mean() 평균
median() 중앙값
min(), max() 최솟값, 최댓값
std(), var() 표준편차, 분산
quantile() 분위수
df.mean() # 전체 열의 평균 df['컬럼명'].median() # 특정 열의 중앙값
6. 데이터 샘플링과 복사: sample(), copy() 🎲

sample(): 데이터 중 일부만 무작위로 뽑아볼 수 있어요.

copy(): 원본을 안전하게 복사해서 실험할 때 유용!

df.sample(3) # 무작위 3개 행 추출 df.sample(3, random_state=42) # 결과 고정 df_copy = df.copy() # 데이터프레임 복사
마치며: 데이터 탐색, 어렵지 않아요! 🌈
데이터 분석의 시작은 탐색입니다.
오늘 소개한 판다스의 기본 함수들만 잘 활용해도
데이터의 구조, 분포, 결측치, 통계 정보까지 한눈에 파악할 수 있답니다!

여러분도 아래와 같이 데이터와 친해져 보세요!

df.head() df.info() df.describe()

이제 여러분도 데이터 탐색의 고수가 될 준비가 되셨나요?
궁금한 점이나 더 알고 싶은 내용이 있다면 댓글로 남겨주세요!
데이터 분석, 함께 재미있게 배워봐요! 🎉
#판다스 #Pandas #데이터분석 #DataFrame #파이썬 #데이터탐색 #데이터과학 #초보자추천 #코딩 #통계
반응형
관련글 관련글 더보기

ABOUT ME

Developer Developer

1. 데이터 미리보기: head()와 tail() 🕵️‍♂️

2. 데이터 구조 한눈에 보기: info()와 describe() 🧑‍💻

3. 데이터 크기와 구조: shape, columns, index, dtypes 📏

4. 결측치와 고유값: isnull(), value_counts() 🧐

5. 기본 통계 함수 총정리! 🏆

6. 데이터 샘플링과 복사: sample(), copy() 🎲

마치며: 데이터 탐색, 어렵지 않아요! 🌈

티스토리툴바

count()	데이터 개수
sum()	합계
mean()	평균
median()	중앙값
min(), max()	최솟값, 최댓값
std(), var()	표준편차, 분산
quantile()	분위수

ABOUT ME

1. 데이터 미리보기: head()와 tail() 🕵️‍♂️

2. 데이터 구조 한눈에 보기: info()와 describe() 🧑‍💻

3. 데이터 크기와 구조: shape, columns, index, dtypes 📏

4. 결측치와 고유값: isnull(), value_counts() 🧐

5. 기본 통계 함수 총정리! 🏆

6. 데이터 샘플링과 복사: sample(), copy() 🎲

마치며: 데이터 탐색, 어렵지 않아요! 🌈

관련글 관련글 더보기

티스토리툴바