Python
[Pandas] 데이터 전처리: 결측치, 치환, 중복 데이터, 자료형 변환
zzheng
2024. 6. 12. 20:10
먼저, 판다스를 사용하기 위해서는 import 를 합니다.
import pandas as pd
데이터 전처리 함수들
결측치 확인 : isnull()
결측치 개수 확인 : isnull().sum()
결측치가 아닌 것 확인 : notnull()
누락 데이터 제거 : dropna()
- 행제거: DataFrame객체.dropna(subset=column명 리스트, how='any'/'all', axis =0, thresh=개수)
- 열제거:DataFrame객체.dropna(axis=1, thresh=개수)
- ※ thresh = 유효한 값의 개수가 thresh의 값보다 작은 행이나 열을 삭제
누락 데이터 치환 : fillna()
중복 데이터 확인 : duplicated()
중복 데이터 제거 : drop_duplicated()
자료형 변환 : astype(자료형)