반응형

머신러닝 및 딥러닝/데이터 분석 3

[혼자 공부하는 데이터분석] 데이터 분석 기초 강의 모음

데이터 분석 과정  1. 데이터 분석이란 ?구글 코랩 알아보기데이터 찾기 2. 데이터 수집하기파이썬으로 JSON과 XML 데이터 다루기 API 사용하기 웹 스크래핑 하기뷰티플수프 사용하기 3. 데이터 정제하기pandas 기반 불필요한 데이터 삭제하기잘못된 데이터 수정하기4. 데이터 요약하기 기술통계 구하기 분포 그래프 그리기 5. 데이터 시각화하기matplotlib으로 그래프 그리기 6. 복잡한 데이터 표현하기 matplotib 고급 기능 배우기7. 통계적으로 추정하고 머신러닝 예측하기 1강. 데이터 분석이란 ?데이터 과학 4가지 요소 통계학, 머신러닝, 데이터 분석, 데이터 마이닝 데이터 과학자 '지 리'의 답변 데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다. 데이터 과학을 활용해서 소프..

ColumnTransformer (Encoding)

데이터를 처리하다보면, categorical 데이터를 numerical 데이터로 변환해야 할 필요성을 느낍니다. 이러한 변환을 encoding이라고 합니다.다양한 목적과 자료의 특징에 맞추어, 올바르게 인코딩한 categorical 데이터는모델의 퍼포먼스와 효율에 상당한 영향을 끼칩니다. 그러나, categorical 데이터의 인코딩은 생각보다 단순하지 않습니다.  One Hot Encoding, Ordinal Encoding, Label Encoding, Target Encoding 등종류도 다양하고 비슷한 인코딩도 library에 따라 크고 작은 차이가 있습니다. ColumnTransformer는 make_column_transformer과 거의 동일한 기능을 제공합니다.그럼 make_column_t..

train_test_split의 random_state 의미

scikit-learn의 model_selection 패키지 안에, train_test_split 모듈을 활용하여쉽게 train set과 test set을 분리할 수 있습니다.  from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)  그렇다면 train, test set을 분리하는 이유는 무엇일까요 ? 학습과 검증을 위한 데이터셋을 분리하는 목적을 정확히 알아야 합니다. 머신러닝 모델에 train 데이터를 모두 학습시킨 후, test 데이터를 통해 예측율을 확인해보면성능이 생각보다 안나오거나 학습 시보다 떨어지는 경우가 많습니다.  이..

728x90
반응형