본문 바로가기

데이터분석9

Feature Engineering 피처엔지니링 피처 엔지니어링은 기존에 raw데이터를 분석가가 모델이 학습할 수 있는 정보로 바꾸는 과정을 말합니다. 모델이 학습하는 정보를 만드는데에 있어서, 분석가가 가진 도메인지식이나 다양한 통찰력이 적용될 수 있습니다. 모든 경우에 만능인 피처 엔지니어링 방법은 존재하지 않으며, 모든 경우에 누가 분석하느냐에 따라 달라질 수 있습니다. 데이터에서 효과적으로 정보를 추출하는 기법인 피처 엔지니어링은 머신러닝의 성능을 좌우하는 중요한 역할을 합니다. 1 피처엔지니어링 기법 1.1 Imputation(결측치 처리) 결측치: 머신러닝 모델 성능에 영향을 준다. 70% 이상의 결측치가 있는 행과 열은 지워주는 것도 좋다. Numerical Imputation: 결측치를 0이나 중앙값으로 대체 Categori.. 2021. 7. 7.
[데이터 분석] sales 데이터 전처리하기 데이터 전처리 이상치 삭제하기 년,월,일로 date 분리하기 수입, 연월, 월일 데이터 만들기 데이터 불러오기 import pandas as pd sales = pd.read_csv('data/sales.csv') sales.head() date shop_id item_id item_price item_cnt_day 0 02.01.2013 59 22154 999.00 1.0 1 03.01.2013 25 2552 899.00 1.0 2 05.01.2013 25 2552 899.00 -1.0 3 06.01.2013 25 2554 1709.05 1.0 4 15.01.2013 25 2555 1099.00 1.0 len(sales) 2935849이상치(item_price, item_cnt_day) .. 2021. 6. 30.
[데이터 분석] sales 데이터 분석 데이터 파악(EDA) 데이터의 전반적인 파악 컬럼별 값 파악 이상치, 결측치 등 파악 데이터 불러오기 import pandas as pd sales = pd.read_csv('data/sales.csv') 데이터 전체적인 정보 확인 sales.info() RangeIndex: 2935849 entries, 0 to 2935848 Data columns (total 5 columns): # Column Dtype --- ------ ----- 0 date object 1 shop_id int64 2 item_id int64 3 item_price float64 4 item_cnt_day float64 dtypes: float64(2), int64(2), object(1) memory usage: 112.0.. 2021. 6. 30.
[데이터 분석] 오픈 API를 통한 데이터 수집 : 행정안전부_소방서위치조회서비스 [오픈 API를 통한 데이터 수집] 서울시 지역구 별 소방서 개수 구하기 소방서 위치 조회서비스 이용하기 https://www.data.go.kr/dataset/15000933/openapi.do (1) 필요 라이브러리 불러오기 from bs4 import BeautifulSoup from urllib.request import Request, urlopen import pandas as pd (2) open_api 요청 테스트 serviceKey = '일반 인증키(Encoding)' url = 'http://openapi.safekorea.go.kr/openapi/service/firestation/item?' api_url = url + 'serviceKey=' + serviceKey + '&fire.. 2021. 6. 30.