기본 설정 필수 모듈 불러오기 그래프 출력 관련 기본 설정 지정 In [ ]: # 파이썬 ≥3.5 필수 import sys assert sys.version_info >= (3, 5) # 사이킷런 ≥0.20 필수 import sklearn assert sklearn.__version__ >= "0.20" # 공통 모듈 임포트 import numpy as np import os # 노트북 실행 결과를 동일하게 유지하기 위해 np.random.seed(42) # 깔끔한 그래프 출력을 위해 %matplotlib inline import matplotlib as mpl import matplotlib.pyplot as plt mpl.rc('axes', labelsize=14) mpl.rc('xtick', lab..
일단 라이브러리들을 불러오고, 'train.csv', 'test.csv' 파일 또한 불러오자. import pandas as pd import numpy as np train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') 그 후 제대로 파일을 불러왔는지 train.head()로 확인해보았다. In [ ]: train.head() Out[ ]: 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C 3 1 3 Heikk..
프로젝트 목표(변환 1~3) 변환 1 중간 소득과 중간 주택 가격 사이의 상관관계 그래프에서 확인할 수 있는 수평선에 위치한 데이터를 삭제한다. 우선 그래프를 확인해보면 median_house_value의 500,000 값이 집중적으로 존재한다. In [37]: housing = strat_train_set.copy() # housing 값 초기화 In [38]: housing.plot(kind="scatter", x="median_income", y="median_house_value", alpha=0.1) plt.axis([0, 16, 0, 550000]) save_fig("income_vs_house_value_scatterplot") 그림 저장: income_vs_house_value_scatte..
housing 데이터셋을 활용하여 데이터 전처리를 진행해보자! housing 데이터셋 다운로드 후 csv 형식의 파일을 pandas로 확인하는 것으로 시작. 훈련 세트와 테스트 세트를 구분하여 만들고, 고유 식별자를 이용하여 무작위로 테스트 세트를 만드는 것을 방지한다. 기본 설정 필수 모듈을 불러오고 그래프 출력 관련 기본 설정을 정한다. # 파이썬 ≥3.5 import sys assert sys.version_info >= (3, 5) # 사이킷런 ≥0.20 import sklearn assert sklearn.__version__ >= "0.20" # 공통 모듈 임포트 import numpy as np import os # 깔금한 그래프 출력을 위해 %matplotlib inline import m..