Python

판다스 DataFrame 완전 정복! 데이터 탐색의 모든 것 🚀

weblogic 2025. 4. 25. 14:02
반응형

데이터 분석을 시작할 때, 여러분은 어떤 질문을 던지나요?
"이 데이터는 어떤 구조지?"
"결측치는 얼마나 있지?"
"평균, 최댓값, 최솟값은?"
이 모든 궁금증을 단 몇 줄의 코드로 해결할 수 있다면 얼마나 좋을까요?
오늘은 파이썬 데이터 분석의 필수 라이브러리, 판다스(Pandas)의 DataFrame에서 자주 쓰는 탐색 함수들을 쉽고 흥미롭게 소개합니다!
데이터 초보자도, 경력자도 모두 알아두면 좋은 꿀팁이니 끝까지 집중해주세요! 😎


1. 데이터 미리보기: head()와 tail() 🕵️‍♂️

처음 데이터를 불러왔을 때, 전체를 다 보면 머리가 아프겠죠?
이럴 땐 head()tail() 함수로 데이터의 앞뒤를 살짝 들여다보세요!

# 상위 5개 행 미리보기
df.head()

# 하위 3개 행 미리보기
df.tail(3)
  • head(): 데이터의 상위 n개 행(기본 5개)을 보여줘요.
  • tail(): 하위 n개 행을 보여주니, 데이터의 끝부분이 궁금할 때 딱!

📝 TIP: 데이터가 시간순으로 정렬되어 있다면, tail()로 최신 데이터를 바로 확인할 수 있어요!


2. 데이터 구조 한눈에 보기: info()와 describe() 🧑‍💻

데이터의 전체적인 윤곽을 파악하려면?
info()describe()를 꼭 써보세요!

# 데이터 요약 정보
df.info()

# 수치형 데이터 통계 요약
df.describe()
  • info():
    • 행/열 개수, 각 열의 이름과 타입, 결측치 유무, 메모리 사용량까지 한 번에!
  • describe():
    • 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 사분위수(25%, 50%, 75%) 등 주요 통계 정보를 자동으로 계산해줘요.
    • 범주형 데이터도 df.describe(include='object')로 요약 가능!

📊 실전 예시:
"우리 데이터에 결측치가 많을까?"
df.info()
"각 열의 평균과 분포가 궁금해!"
df.describe()


3. 데이터 크기와 구조: shape, columns, index, dtypes 📏

데이터의 뼈대를 파악하는 것도 중요하죠!

df.shape      # (행, 열) 튜플 반환
df.columns    # 열 이름 리스트
df.index      # 행 인덱스 정보
df.dtypes     # 각 열의 데이터 타입
  • shape: 데이터가 몇 행, 몇 열인지 알려줘요.
  • columns: 열 이름을 한눈에!
  • index: 행의 인덱스(번호)도 확인 가능.
  • dtypes: 숫자인지, 문자열인지 데이터 타입을 체크!

4. 결측치와 고유값: isnull(), value_counts() 🧐

데이터에 빈 값이 있으면 분석에 큰 영향을 미칠 수 있어요.
isnull()로 결측치를, value_counts()로 값의 분포를 확인하세요!

df.isnull().sum()          # 각 열별 결측치 개수
df['컬럼명'].value_counts() # 해당 열의 값별 개수
  • isnull(): 결측치가 있으면 True, 없으면 False!
  • value_counts(): 각 값이 몇 번 나오는지, 비율(normalize=True)도 확인 가능!

5. 기본 통계 함수 총정리! 🏆

판다스에는 다양한 통계 함수가 내장되어 있어요.

count()데이터 개수
sum()합계
mean()평균
median()중앙값
min(), max()최솟값, 최댓값
std(), var()표준편차, 분산
quantile()분위수
df.mean()                # 전체 열의 평균
df['컬럼명'].median()     # 특정 열의 중앙값

6. 데이터 샘플링과 복사: sample(), copy() 🎲

  • sample(): 데이터 중 일부만 무작위로 뽑아볼 수 있어요.
  • copy(): 원본을 안전하게 복사해서 실험할 때 유용!
df.sample(3)                  # 무작위 3개 행 추출
df.sample(3, random_state=42) # 결과 고정
df_copy = df.copy()           # 데이터프레임 복사

마치며: 데이터 탐색, 어렵지 않아요! 🌈

데이터 분석의 시작은 탐색입니다.
오늘 소개한 판다스의 기본 함수들만 잘 활용해도
데이터의 구조, 분포, 결측치, 통계 정보까지 한눈에 파악할 수 있답니다!

여러분도 아래와 같이 데이터와 친해져 보세요!

df.head()
df.info()
df.describe()

이제 여러분도 데이터 탐색의 고수가 될 준비가 되셨나요?
궁금한 점이나 더 알고 싶은 내용이 있다면 댓글로 남겨주세요!
데이터 분석, 함께 재미있게 배워봐요! 🎉


#판다스 #Pandas #데이터분석 #DataFrame #파이썬 #데이터탐색 #데이터과학 #초보자추천 #코딩 #통계

반응형