Python

[Pandas] 데이터 전처리: 결측치, 치환, 중복 데이터, 자료형 변환

zzheng 2024. 6. 12. 20:10

먼저, 판다스를 사용하기 위해서는 import 를 합니다.

import pandas as pd

데이터 전처리 함수들

결측치 확인 : isnull()

결측치 개수 확인 : isnull().sum()

결측치가 아닌 것 확인 : notnull()

누락 데이터 제거 : dropna()

  • 행제거: DataFrame객체.dropna(subset=column명 리스트, how='any'/'all', axis =0, thresh=개수)
  • 열제거:DataFrame객체.dropna(axis=1, thresh=개수)
  • ※ thresh = 유효한 값의 개수가 thresh의 값보다 작은 행이나 열을 삭제

누락 데이터 치환 : fillna()

중복 데이터 확인 : duplicated()

중복 데이터 제거 : drop_duplicated()

자료형 변환 : astype(자료형)