본문 바로가기

Study

(43)
Python | Dacon Lv3 | CV & LGBM 1. EDA¶데이터 불러오기 > 데이터 정보 관측하기 > 데이터 크기 파악하기 > 데이터 feature 알아보기 #데이터 불러오기 df = pd.read_csv('경로') #데이터 정보 관측하기 ; feature 수, column 명, 결측치 여부, Dtype df.info() #데이터 크기 파악하기 ; 행 갯수, 열 갯수 df.shape #데이터 featur 알아보기 ; df 각 column 정보 df.head() #결측치 유무 확인 df.isnull().sum() | 수치데이터 특성보기¶DataFrame에 describe()를 실행하면, 결측치를 제외하고 수치형 데이터에 한해 각 열에 대해 요약이 수행된다. 기본적으로 count,mean, std, min, 1분위수. 2분위수, 3분위수, max 값이..
Python | Dacon Lv2 | RandomForest Lv2. Data Preprocessing 1. 결측치 대체 - 평균값 df.fillna({'칼럼명':int(df['칼럼명'].mean())}, inplace=True) In [ ]: # 결측치가 있는 feature 살펴보기 print(train.isnull().sum()) train.info() In [ ]: # 결측치 평균값으로 대체하기 train.fillna({'hour_bef_temperature':int(train['hour_bef_temperature'].mean())}, inplace=True) In [ ]: # 결과 확인 print(train.isnull().sum()) 2. 결측치 대체 - 보간법¶ 보간법이란? 알려진 데이터의 지점의 고립점 내에서 새로운 데이터 지점을 구하는 방식 독립 ..
Python | Dacon Lv1 | Review 데이터 다운로드 아래 셀을 실행시켜 데이터를 colab에 불러옵니다. 셀 실행은 Ctrl + Enter 를 이용해 실행 시킬 수 있습니다. In [ ]: # 데이터 다운로드 링크로 데이터를 코랩에 불러옵니다. !wget 'https://bit.ly/3gLj0Q6' import zipfile with zipfile.ZipFile('3gLj0Q6', 'r') as existing_zip: existing_zip.extractall('data') 라이브러리 불러오기 In [ ]: # Pandas 와 Scikit-learn 라이브러리를 불러오세요 import pandas as pd import sklearn 데이터 불러오기 In [ ]: # train.csv 와 test.csv 를 DataFrame 클래스로 불..
Python | Dacon Lv1 | EDA, Data Preprocessing, Modeling Lv. 1 머신러닝 기초 - EDA 머신러닝 이란? 컴퓨터가 학습을 할 수 있도록 하는 연구분야 인공지능을 소프트웨어적으로 구현하는 머신러닝은 컴퓨터가 데이터를 학습하고 스스로 패턴을 찾아내 적절한 작업을 수행하도록 학습하는 알고리즘 머신러닝 시스템(ML)은 관측데이터 D로부터 성능지수P를 최적화 하는 모델M을 자동으로 만드는 기술 환경(Environment)과의 상호작용을 통해서 축적되는 경험적인 데이터(Data)를 바탕으로 지식, 즉 모델(Model)을 자동으로 구축하고 성능(Performance)룰 향상하는 시스템 EDA Exploratory Data Analysis 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 ‘탐색과 이해’를 기본으로 가져야 한다는 것 수집한 데이터..
Python | Dacon 머신러닝 기초 (ipynb to html) 머신러닝 기초 학습을 시작했다! 아래 링크에서 차근차근 공부해나갈 예정 :) https://dacon.io/competitions/open/235698/overview/description #오늘의 파이썬 #1일1오파 #파이썬 # python - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 챕터마다 vs code에서 .ipynb파일로 정리하여 tistori에 html로 올릴 예정이다. ipynb 파일 html 로 변환 (git bash이용) 1. ipynb 파일이 있는 디렉토리로 이동 2. 명령어 입력 jupyter nbconvert [변환할파일].ipynb --to html #아래처럼 뜨면 완료! [NbConvertApp] Converting notebook [변환할파..
Python | 데이터 분석 도구 데이터 분석을 위해 python을 쓰는 여러 장점 중, 다양한 라이브러리의 지원 이 큰 부분을 차지한다고 생각한다. 데이터 조작 도구 라이브러리와 데이터 시각화 도구를 살펴보자. 1. 데이터 조작 Numpy - 입출력 자료 구조 Pandas - 입력 데이터를 만드는 과정, 데이터 시각화 과정 1-1. Numpy Numpy = numerical python 파이썬 내장 리스트보다 데이터 저장 및 처리에 있어 효율적인 Numpy 배열 제공 선형대수와 관련된 기능 제공 Python을 기반으로 한 데이터 과학 도구의 핵심 패키지 데이터 사이언스 영역 대부분의 도구는 Numpy기반이라해도 과언이 아니다. 1-2. Pandas Numpy를 기반으로 개발된 패키지 유연한 인덱스를 가진 1차원 배열 구조의 Series..
Git | reset, branch, merge, stash 1. Git reset reset을 통해 commit취소하여 과거로 돌아갈 수 있다. 간단하게 리뷰하여 작성하자면, 과거의 commit으로 돌아가기위해 reset과 revert를 사용할 수 있고 둘의 사용법은 약간의 차이가 있다. 1) git reset (우선 reset을 하며 기록이 날아가는 사고를 방지하기 위해 .git폴더를 카피한 후에 진행하는 편이 안전할 것으로 보인다.) git log로 로그를 봤을 때, commit message 3 이후의 log, 즉 4와 5에 해당하는 로그를 삭제하고자 한다면 git reset [3의 해시코드] --hard 를 통해 commit message 4, 5에 해당하는 log를 지울 수 있다. 참고할 사항은 git은 웬만하면 버전정보를 삭제하지 않는다. 그래서 실제..
Git | add, commit, log & diff git init이 완료되었다면, 기초 명령어를 통해 commit까지 상태 변경을 할 수 있다. 1. 작업환경 이해 우선 작업환경을 이해하고 넘어가 보자 위 그림처럼 세 부분의 작업환경이 있다. 미리 요약하자면, working directory에서 작업한 작업물을 staging area에 add 명령어로 올리고 staging area에서 처리를 기다리는 작업물을 commit 명령어로 .git directory에 올리는 일련의 순서를 가진다. 나아가 local에 commit된 버전 기록들을 server에 push 로 올리고 pull 로 내려받을 수 있다. working directory는 위 그림처럼 세분화하여 나타낼 수 있다. untracked영역은 .git에서 버전 관리가 되고 있는 않은 작업물이 대기되..