ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 판다스 DataFrame 완전 정복! 데이터 탐색의 모든 것 🚀
    Python 2025. 4. 25. 14:02
    반응형

    데이터 분석을 시작할 때, 여러분은 어떤 질문을 던지나요?
    "이 데이터는 어떤 구조지?"
    "결측치는 얼마나 있지?"
    "평균, 최댓값, 최솟값은?"
    이 모든 궁금증을 단 몇 줄의 코드로 해결할 수 있다면 얼마나 좋을까요?
    오늘은 파이썬 데이터 분석의 필수 라이브러리, 판다스(Pandas)의 DataFrame에서 자주 쓰는 탐색 함수들을 쉽고 흥미롭게 소개합니다!
    데이터 초보자도, 경력자도 모두 알아두면 좋은 꿀팁이니 끝까지 집중해주세요! 😎


    1. 데이터 미리보기: head()와 tail() 🕵️‍♂️

    처음 데이터를 불러왔을 때, 전체를 다 보면 머리가 아프겠죠?
    이럴 땐 head()tail() 함수로 데이터의 앞뒤를 살짝 들여다보세요!

    # 상위 5개 행 미리보기
    df.head()
    
    # 하위 3개 행 미리보기
    df.tail(3)
    • head(): 데이터의 상위 n개 행(기본 5개)을 보여줘요.
    • tail(): 하위 n개 행을 보여주니, 데이터의 끝부분이 궁금할 때 딱!

    📝 TIP: 데이터가 시간순으로 정렬되어 있다면, tail()로 최신 데이터를 바로 확인할 수 있어요!


    2. 데이터 구조 한눈에 보기: info()와 describe() 🧑‍💻

    데이터의 전체적인 윤곽을 파악하려면?
    info()describe()를 꼭 써보세요!

    # 데이터 요약 정보
    df.info()
    
    # 수치형 데이터 통계 요약
    df.describe()
    • info():
      • 행/열 개수, 각 열의 이름과 타입, 결측치 유무, 메모리 사용량까지 한 번에!
    • describe():
      • 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 사분위수(25%, 50%, 75%) 등 주요 통계 정보를 자동으로 계산해줘요.
      • 범주형 데이터도 df.describe(include='object')로 요약 가능!

    📊 실전 예시:
    "우리 데이터에 결측치가 많을까?"
    df.info()
    "각 열의 평균과 분포가 궁금해!"
    df.describe()


    3. 데이터 크기와 구조: shape, columns, index, dtypes 📏

    데이터의 뼈대를 파악하는 것도 중요하죠!

    df.shape      # (행, 열) 튜플 반환
    df.columns    # 열 이름 리스트
    df.index      # 행 인덱스 정보
    df.dtypes     # 각 열의 데이터 타입
    • shape: 데이터가 몇 행, 몇 열인지 알려줘요.
    • columns: 열 이름을 한눈에!
    • index: 행의 인덱스(번호)도 확인 가능.
    • dtypes: 숫자인지, 문자열인지 데이터 타입을 체크!

    4. 결측치와 고유값: isnull(), value_counts() 🧐

    데이터에 빈 값이 있으면 분석에 큰 영향을 미칠 수 있어요.
    isnull()로 결측치를, value_counts()로 값의 분포를 확인하세요!

    df.isnull().sum()          # 각 열별 결측치 개수
    df['컬럼명'].value_counts() # 해당 열의 값별 개수
    • isnull(): 결측치가 있으면 True, 없으면 False!
    • value_counts(): 각 값이 몇 번 나오는지, 비율(normalize=True)도 확인 가능!

    5. 기본 통계 함수 총정리! 🏆

    판다스에는 다양한 통계 함수가 내장되어 있어요.

    count()데이터 개수
    sum()합계
    mean()평균
    median()중앙값
    min(), max()최솟값, 최댓값
    std(), var()표준편차, 분산
    quantile()분위수
    df.mean()                # 전체 열의 평균
    df['컬럼명'].median()     # 특정 열의 중앙값

    6. 데이터 샘플링과 복사: sample(), copy() 🎲

    • sample(): 데이터 중 일부만 무작위로 뽑아볼 수 있어요.
    • copy(): 원본을 안전하게 복사해서 실험할 때 유용!
    df.sample(3)                  # 무작위 3개 행 추출
    df.sample(3, random_state=42) # 결과 고정
    df_copy = df.copy()           # 데이터프레임 복사

    마치며: 데이터 탐색, 어렵지 않아요! 🌈

    데이터 분석의 시작은 탐색입니다.
    오늘 소개한 판다스의 기본 함수들만 잘 활용해도
    데이터의 구조, 분포, 결측치, 통계 정보까지 한눈에 파악할 수 있답니다!

    여러분도 아래와 같이 데이터와 친해져 보세요!

    df.head()
    df.info()
    df.describe()

    이제 여러분도 데이터 탐색의 고수가 될 준비가 되셨나요?
    궁금한 점이나 더 알고 싶은 내용이 있다면 댓글로 남겨주세요!
    데이터 분석, 함께 재미있게 배워봐요! 🎉


    #판다스 #Pandas #데이터분석 #DataFrame #파이썬 #데이터탐색 #데이터과학 #초보자추천 #코딩 #통계

    반응형
Designed by Tistory.