데이터 다운로드
아래 셀을 실행시켜 데이터를 colab에 불러옵니다.
셀 실행은 Ctrl + Enter 를 이용해 실행 시킬 수 있습니다.
In [ ]:
# 데이터 다운로드 링크로 데이터를 코랩에 불러옵니다.
!wget 'https://bit.ly/3gLj0Q6'
import zipfile
with zipfile.ZipFile('3gLj0Q6', 'r') as existing_zip:
existing_zip.extractall('data')
라이브러리 불러오기
In [ ]:
# Pandas 와 Scikit-learn 라이브러리를 불러오세요
import pandas as pd
import sklearn
데이터 불러오기
In [ ]:
# train.csv 와 test.csv 를 DataFrame 클래스로 불러오세요
train = pd.read_csv('train.csv 경로')
test = pd.read_csv('test.csv 경로')
데이터 정보 관찰하기
In [ ]:
# head() 를 사용해 데이터 정보를 관찰하세요
train.head()
test[:5]
test.tail()
데이터 행열 갯수 관찰
In [ ]:
# shape 를 사용해 데이터 크기를 관찰하세요
train.shape
test.shape
결측치 확인
In [ ]:
# info() 를 사용해 결측치가 있는지 확인하세요.
train.info()
test.info()
결측치 전처리
In [ ]:
# dropna() 를 사용해 train 데이터는 결측치를 제거하고
# fillna() 를 사용해 test 데이터 결측치는 0 으로 대체하세요.
# 그리고 결측치의 갯수를 출력하여 확안하세요.
train = train.dropna()
test = test.fillna(0)
print('train`s NaN ='+train.isnull.sum())
print('test`s NaN ='+test.isnull.sum())
모델 훈련
In [ ]:
# train 데이터의 count 피쳐를 뺀 것을 X_train 으로 할당하세요.
# train 데이터의 count 피쳐만을 가진 것을 Y_train 으로 할당하세요.
# 회귀의사결정나무를 선언하고 fit() 으로 훈련시키세요.
from sklearn import DecisionTreeRegressor
model = DecisionTreeRegressor()
X_train = train.drop(['count'], axis = 1)
Y_train = train['count']
model.fit(X_train, Y_train)
테스트 파일 예측
In [ ]:
# predict() 을 이용해 test data 를 훈련한 모델로 예측한 data array 를 생성하세요.
pred = model.predict(test)
pred.head()
submission 파일 생성
In [ ]:
# submission.csv 를 불러오세요.
# submission df 의 count 피쳐에 예측한 결과를 덧입히세요.
# submission df 를 to_csv() 를 이용해 csv 을 생성하세요. *index=False)
sub = pd.read_csv('submission.csv 경로')
sub['count'] = pred
sub.to_csv('sub.csv', index=False)
* 모델 훈련 > 예측 부분 한 번 더 복습하기 ✔
'Study > Python' 카테고리의 다른 글
Python | Dacon Lv3 | CV & LGBM (0) | 2022.03.21 |
---|---|
Python | Dacon Lv2 | RandomForest (0) | 2022.03.16 |
Python | Dacon Lv1 | EDA, Data Preprocessing, Modeling (0) | 2022.03.15 |
Python | Dacon 머신러닝 기초 (ipynb to html) (0) | 2022.03.14 |
Python | 데이터 분석 도구 (0) | 2022.03.14 |