판다스 DataFrame 완전 정복! 데이터 탐색의 모든 것 🚀
데이터 분석을 시작할 때, 여러분은 어떤 질문을 던지나요?
"이 데이터는 어떤 구조지?"
"결측치는 얼마나 있지?"
"평균, 최댓값, 최솟값은?"
이 모든 궁금증을 단 몇 줄의 코드로 해결할 수 있다면 얼마나 좋을까요?
오늘은 파이썬 데이터 분석의 필수 라이브러리, 판다스(Pandas)의 DataFrame에서 자주 쓰는 탐색 함수들을 쉽고 흥미롭게 소개합니다!
데이터 초보자도, 경력자도 모두 알아두면 좋은 꿀팁이니 끝까지 집중해주세요! 😎
1. 데이터 미리보기: head()와 tail() 🕵️♂️

처음 데이터를 불러왔을 때, 전체를 다 보면 머리가 아프겠죠?
이럴 땐 head()와 tail() 함수로 데이터의 앞뒤를 살짝 들여다보세요!
# 상위 5개 행 미리보기
df.head()
# 하위 3개 행 미리보기
df.tail(3)
- head(): 데이터의 상위 n개 행(기본 5개)을 보여줘요.
- tail(): 하위 n개 행을 보여주니, 데이터의 끝부분이 궁금할 때 딱!
📝 TIP: 데이터가 시간순으로 정렬되어 있다면, tail()로 최신 데이터를 바로 확인할 수 있어요!
2. 데이터 구조 한눈에 보기: info()와 describe() 🧑💻
데이터의 전체적인 윤곽을 파악하려면?
info()와 describe()를 꼭 써보세요!
# 데이터 요약 정보
df.info()
# 수치형 데이터 통계 요약
df.describe()
- info():
- 행/열 개수, 각 열의 이름과 타입, 결측치 유무, 메모리 사용량까지 한 번에!
- describe():
- 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 사분위수(25%, 50%, 75%) 등 주요 통계 정보를 자동으로 계산해줘요.
- 범주형 데이터도
df.describe(include='object')
로 요약 가능!
📊 실전 예시:
"우리 데이터에 결측치가 많을까?"
→df.info()
"각 열의 평균과 분포가 궁금해!"
→df.describe()
3. 데이터 크기와 구조: shape, columns, index, dtypes 📏
데이터의 뼈대를 파악하는 것도 중요하죠!
df.shape # (행, 열) 튜플 반환
df.columns # 열 이름 리스트
df.index # 행 인덱스 정보
df.dtypes # 각 열의 데이터 타입
- shape: 데이터가 몇 행, 몇 열인지 알려줘요.
- columns: 열 이름을 한눈에!
- index: 행의 인덱스(번호)도 확인 가능.
- dtypes: 숫자인지, 문자열인지 데이터 타입을 체크!
4. 결측치와 고유값: isnull(), value_counts() 🧐
데이터에 빈 값이 있으면 분석에 큰 영향을 미칠 수 있어요.
isnull()로 결측치를, value_counts()로 값의 분포를 확인하세요!
df.isnull().sum() # 각 열별 결측치 개수
df['컬럼명'].value_counts() # 해당 열의 값별 개수
- isnull(): 결측치가 있으면 True, 없으면 False!
- value_counts(): 각 값이 몇 번 나오는지, 비율(
normalize=True
)도 확인 가능!
5. 기본 통계 함수 총정리! 🏆
판다스에는 다양한 통계 함수가 내장되어 있어요.
count() | 데이터 개수 |
sum() | 합계 |
mean() | 평균 |
median() | 중앙값 |
min(), max() | 최솟값, 최댓값 |
std(), var() | 표준편차, 분산 |
quantile() | 분위수 |
df.mean() # 전체 열의 평균
df['컬럼명'].median() # 특정 열의 중앙값
6. 데이터 샘플링과 복사: sample(), copy() 🎲
- sample(): 데이터 중 일부만 무작위로 뽑아볼 수 있어요.
- copy(): 원본을 안전하게 복사해서 실험할 때 유용!
df.sample(3) # 무작위 3개 행 추출
df.sample(3, random_state=42) # 결과 고정
df_copy = df.copy() # 데이터프레임 복사
마치며: 데이터 탐색, 어렵지 않아요! 🌈
데이터 분석의 시작은 탐색입니다.
오늘 소개한 판다스의 기본 함수들만 잘 활용해도
데이터의 구조, 분포, 결측치, 통계 정보까지 한눈에 파악할 수 있답니다!
여러분도 아래와 같이 데이터와 친해져 보세요!
df.head() df.info() df.describe()
이제 여러분도 데이터 탐색의 고수가 될 준비가 되셨나요?
궁금한 점이나 더 알고 싶은 내용이 있다면 댓글로 남겨주세요!
데이터 분석, 함께 재미있게 배워봐요! 🎉
#판다스 #Pandas #데이터분석 #DataFrame #파이썬 #데이터탐색 #데이터과학 #초보자추천 #코딩 #통계