1. 결측값 처리

너무 많은 항목이 비어 있는 변수나 너무 많은 항목이 비어 있는 레코드는 그 자체를 삭제
기타 나머지 항목에 대해서는 일반적으로 다음과 같은 값으로 대체
1. 평균값 : 값들의 평균치
2. 중앙값 : 값들 범위 내에 중앙에 위치한 값
3. 최빈값 : 가장 많이 나타내지는 값
예제
- 결측치 확인
  - df.isnull()
    - pandas 를 통해 dataFrame 형식으로 csv 파일을 읽어들인 후 해당 df의 null값을 확인한다.
  - msno.bar(df) / msno.matrix(df)
    - missingno를 통해 결측치를 시각화 할 수 있다.
- 결측치 처리
  - 결측치 제거 - df.dropna()
    - axis=1 열 방향 제거 / axis=0 행 방향 제거
    - thresh=n n개 미만 결측치 존재시 제거
  - 결측치 대체
    - fillna() - 수동 대체
    - sklearn.impute.SimpleImputer
      - fillna()보다 비교적 쉽게 결측값 대체
      - strategy 파라미터
        
        mean 평균값
        
        median 중위값
        
        most_frequent 최빈값
        
        일반적으로 실수형 연속값인 경우 평균 또는 중위수
        
        정규분포인 경우 평균을 사용하는 것이 유리, 비정규분포인 경우 중위수가 유리
        
        카테고리인 경우 최빈값
      - 코드예시

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy = "most_frequent")
df = pd.DataFrame(imputer.fit_fransform(df), columns = df.columns)
#################################################################
imputer = SimpleImputer(Strategy = 'mean', missing_values = np.nan)
imputer = imputer.fit(df[['columnName']])
df[['columnName']] = imputer.transform(df[['columnName']])

2. 정성적 변수¹의 정량화

각 속성은 단일변수 값을 갖도록 수정
정성적 변수의 경우, 0/1의 binary code로 변환해야 추후 해석이 가능
ex) 주소의 변환, 성별의 변환 등
예제
- 범주형 데이터 전처리
  - 기계학습을 위해 숫자로 변환
  - pandas의 get_dummies 함수를 통해 일치여부를 0/1의 binary code로 표현

3. 이상치의 제거

상식적으로 말이 안되거나 잘 못 입력된 것으로 추정되는 변수 값을 조정
일괄적으로 상위 10%와 하위 10%에 해당하는 값들을 단일값으로 부여하는 경우도 있음
예제
- 스케일링
  - RobustScaler
    - scikit learn의 preprocessing을 통해 중앙값 0, IQR 1 (정규분포) 이 되도록 스케일링
    - 아웃라이어가 있어도 대부분 데이터가 0 주위(중앙값)로 모이게 된다.

4. 새로운 파생변수 개발

기존의 변수를 조합하여 새로운 변수를 개발
본래는 비율변수²인 변수를 의미있는 정보로 구간화하여, 새로운 명목변수³로 만듦

5. 정규화

모든 입력변수의 값이 최소 0에서 최대 1사이의 값을 갖도록 조정하거나, 평균 0을 갖는 표준정규분포를 갖도록 값을 조정하는 것
정규화 공식 = (x-최소값) / (최대값-최소값) //여기서 최대값이 1 최소값이 0의 %를 갖게 된다.
예제
- 스케일링
  - StandardScaler
    - scikit learn의 preprocessing을 통해 평균 0, 표준편차 1 (정규분포) 이 되도록 스케일링

6. 자료의 구분

과적합화의 발생 가능성
- 예측 모델 중 한 번의 예측률이 높은가 보다, 예측들 간 오차범위가 좁은 것이 더 잘 구축되었다고 할 수 있다.
과적합화의 예방법
- 모형 구축시, hold-out data의 개념을 도입
- hold-out data (검증) : 모형이 일반성을 갖는지 확인하기 위해 남겨두는 unknown data
- 통계 모형을 구축할 때, 전체 데이터가 100이라면, 학습 : 검증 을 8:2 혹은 7:3의 비중으로 자료를 미리 나누어 둠
0/1 예측의 경우 0과 1의 비중이 각 데이터 셋마다 1:1의 비중이 되도록 섞어야 함

7. 모형에 들어갈 후보 입력변수 선정

기법	독립변수	종속변수	사용 예	적용 예
카이제곱 검정	이산형(범주형)	이산형(범주형)	범주간 차이를 분석	성별(이산)과 구매여부(이산)사이에 유의한 관계가 있는가?
독립표본 t검정(t-test)	이산형(2그룹)	연속형	두집단 간 평균울 비교	체중(연속)과 구매여부(이산) 사이에 유의한 관계가 있는가? >구매자와 비구매자의 평균 체중 비교
분산분석(ANOVA)	이산형(3그룹 이상)	연속형	다분류 모형의 경우, 집단 간 평균을 비교	체중(연속)과 고객등급 사이(3그룹이상 이산)에 유의한 관계가 있는가? >고객등급에 따라 평균 체중 비교

실습 예제

1. 결측치 전처리

결측값 처리 실습¶

In [7]:

import pandas as pd
import numpy as np
import sklearn
from sklearn.impute import SimpleImputer
import missingno as msno
import seaborn as sns

titanic = pd.read_csv('/Users/soojungchoi/pythonProject/pythonBasic/data/titanic.csv')
titanic

Out[7]:

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	0	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	0	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	0	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	0	373450	8.0500	NaN	S
...	...	...	...	...	...	...	...	...	...	...	...	...
886	887	0	2	Montvila, Rev. Juozas	male	27.0	0	0	211536	13.0000	NaN	S
887	888	1	1	Graham, Miss. Margaret Edith	female	19.0	0	0	112053	30.0000	B42	S
888	889	0	3	Johnston, Miss. Catherine Helen "Carrie"	female	NaN	1	2	W./C. 6607	23.4500	NaN	S
889	890	1	1	Behr, Mr. Karl Howell	male	26.0	0	0	111369	30.0000	C148	C
890	891	0	3	Dooley, Mr. Patrick	male	32.0	0	0	370376	7.7500	NaN	Q

891 rows × 12 columns

In [5]:

msno.matrix(titanic)

Out[5]:

<AxesSubplot:>

In [6]:

msno.bar(titanic)

Out[6]:

<AxesSubplot:>

In [9]:

sns.kdeplot(titanic.Age)

Out[9]:

<AxesSubplot:xlabel='Age', ylabel='Density'>

결측치 50%이상인 경우 삭제 -> cabin
카테고리값은 최빈값, -> embarked
비정규분포값은 중위수 -> age

In [13]:

#결측치 50%이상 삭제
titanic = titanic.drop(columns=['Cabin'],axis=1)
titanic

Out[13]:

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	0	A/5 21171	7.2500	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	0	PC 17599	71.2833	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	0	STON/O2. 3101282	7.9250	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	0	113803	53.1000	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	0	373450	8.0500	S
...	...	...	...	...	...	...	...	...	...	...	...
886	887	0	2	Montvila, Rev. Juozas	male	27.0	0	0	211536	13.0000	S
887	888	1	1	Graham, Miss. Margaret Edith	female	19.0	0	0	112053	30.0000	S
888	889	0	3	Johnston, Miss. Catherine Helen "Carrie"	female	NaN	1	2	W./C. 6607	23.4500	S
889	890	1	1	Behr, Mr. Karl Howell	male	26.0	0	0	111369	30.0000	C
890	891	0	3	Dooley, Mr. Patrick	male	32.0	0	0	370376	7.7500	Q

891 rows × 11 columns

In [20]:

#카테고리값 최빈값
imputer_embarked = SimpleImputer(strategy='most_frequent')
titanic['Embarked'] = imputer_embarked.fit_transform(titanic[['Embarked']])
titanic['Embarked'].isnull().sum()

msno.matrix(titanic)

Out[20]:

<AxesSubplot:>

In [21]:

#비정규분포값 중위값
imputer_age = SimpleImputer(strategy='median')
titanic['Age'] = imputer_age.fit_transform(titanic[['Age']])
msno.bar(titanic)

Out[21]:

<AxesSubplot:>

2. 스케일링

스케일링 실습¶

In [1]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

%matplotlib inline
plt.rc('axes',unicode_minus=False)

In [2]:

from patsy import demo_data #임의의 실수형 데이터
df = pd.DataFrame(demo_data('x1','x2','x3','x4','x5'))
df

Out[2]:

	x1	x2	x3	x4	x5
0	1.764052	-0.977278	0.144044	0.333674	-2.552990
1	0.400157	0.950088	1.454274	1.494079	0.653619
2	0.978738	-0.151357	0.761038	-0.205158	0.864436
3	2.240893	-0.103219	0.121675	0.313068	-0.742165
4	1.867558	0.410599	0.443863	-0.854096	2.269755

In [3]:

X = np.arange(7).reshape(-1,1)
# arange(n) n개 크기의 ndarray 1차원 배열생성 
# reshape 1차원 배열의 차원 변경
    # reshape(n,m) n*m의 2차원 배열 
    # reshape(n,m,k) n*m*k의 3차원 배열
    # 파라미터에 -1 값이 들어갈 경우, 해당 행/열 등은 데이터 개수에 알맞게 범위가 나뉘어 진다.
    # 현재 -1, 1 이므로 row는 데이터 개수가 존재하는 만큼(7개), column은 1개로 데이터 구조를 반환한다.

X

Out[3]:

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [4]:

from sklearn.preprocessing import StandardScaler
# 평균 0, 표준편차 1이 되도록 스케일링
# 정규화

scaler = StandardScaler()
X2 = scaler.fit_transform(X)
X2

Out[4]:

array([[-1.5],
       [-1. ],
       [-0.5],
       [ 0. ],
       [ 0.5],
       [ 1. ],
       [ 1.5]])

In [5]:

# 이상치 생성
X3 = np.vstack([X,[[1000]]]) #배열을 세로로 쌓는 함수
X3

Out[5]:

array([[   0],
       [   1],
       [   2],
       [   3],
       [   4],
       [   5],
       [   6],
       [1000]])

In [6]:

X3 = scaler.fit_transform(X3)
X3

Out[6]:

array([[-0.38705669],
       [-0.38402392],
       [-0.38099115],
       [-0.37795839],
       [-0.37492562],
       [-0.37189286],
       [-0.36886009],
       [ 2.64570872]])

In [12]:

plt.plot(X3)
plt.show()

In [7]:

# 이상치 존재시 스케일링 후 평균값이 어그러질 수 있다.
# 기계학습 모형의 예측력을 떨어뜨릴 수 있는 요인
from sklearn.preprocessing import RobustScaler

scaler2 = RobustScaler()
X4 = scaler2.fit_transform(X3)
X4

Out[7]:

array([[-1.00000000e+00],
       [-7.14285714e-01],
       [-4.28571429e-01],
       [-1.42857143e-01],
       [ 1.42857143e-01],
       [ 4.28571429e-01],
       [ 7.14285714e-01],
       [ 2.84714286e+02]])

In [13]:

plt.plot(X4)
plt.show()
#아웃라이어가 있어도 대부분 데이터가 0주위 즉, 중앙값 주변으로 모이게 된다.

3. 범주형 데이터 전처리

dataPropre_cate

범주형 데이터¶

기계학습을 위해 숫자로 변환

In [2]:

import pandas as pd
import numpy as np

In [3]:

df1 = pd.DataFrame(['Male','Female'],columns=['x'])
df1

Out[3]:

	x
0	Male
1	Female

In [4]:

#더미 변수
df2 = pd.get_dummies(df1['x'], prefix='gender')
df2

Out[4]:

	gender_Female	gender_Male
0	0	1
1	1	0

In [5]:

df3 = pd.DataFrame(['A','B','O','AB'], columns=['x'])
df3

Out[5]:

	x
0	A
1	B
2	O
3	AB

In [6]:

df4 = pd.get_dummies(df3['x'],prefix='blood')
df4

Out[6]:

	blood_A	blood_AB	blood_B	blood_O
0	1	0	0	0
1	0	0	1	0
2	0	0	0	1
3	0	1	0	0

참고

1.『정성적변수(Qualitative variable, 定性的變數)』는 『양적변수(Quantitative variable)』에 대응되는 용어로서 양적으로 비교할 수 없는 변수, 예를 들면, 성별·사람의 국적 등을 말합니다.

출처 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=npl12345&logNo=220738444017

2. 비율변수

*등간변수는 측정 대상의 순서와 측정 대상간의 간격을 알 수 있는 변수로, 그 사이의 간격이 같은 변수를 말한다.

등간변수가 갖는 0의 값은 사람이 만든 인위적인 0이다 ex.온도계 0도

비율변수는 등간변수가 가지고 있는 0의 값을 절대적인 0의 값으로 가지고 있는 변수다.(0값이 존재한다)

3. 명목변수

측정대상의 특성을 구분하기 위한 변수

명목변수의 숫자는 오로지 구문만을 위해 사용될 뿐, 숫자 자체에 크기나 의미는 없다 ex. 운동선수 등번호

출처 https://likesocialwelfare.tistory.com/9

4. SimpleImputer

https://ichi.pro/ko/sklearnui-simpleimputer-keullaeseuleul-sayonghayeo-gyeolcheuggabs-daechihagi-168708110221126

저작자표시 비영리 변경금지

'Study > Python' 카테고리의 다른 글

Python \| 의사결정나무 Decision Tree (0)	2022.04.20
Python \| 회귀분석 (0)	2022.03.23
Python \| Dacon Lv3 \| CV & LGBM (0)	2022.03.21
Python \| Dacon Lv2 \| RandomForest (0)	2022.03.16
Python \| Dacon Lv1 \| Review (0)	2022.03.15

kree's archive

Python | 데이터 전처리

결측값 처리 실습¶

스케일링 실습¶

범주형 데이터¶

'Study > Python' 카테고리의 다른 글

티스토리툴바

Python | 데이터 전처리

결측값 처리 실습¶

스케일링 실습¶

범주형 데이터¶

'Study > Python' 카테고리의 다른 글

'Study/Python' Related Articles

티스토리툴바