Found out Jordi Warmenhoven had earlier supplied us with a great python version of ISLR
- 강의 슬라이드나 관련 자료가 함께 있음
- statsmodel 패키지 사용하여
- scikit-learn의 OLS estimator 사용하여
- Logistic Regression : scikit-learn estimator와 statsmodels 라이브러리 사용하여,
- KNN Regression과 Classification : scikit-learn estimator 사용하여,
- Regressor 평가 (Evaluation Metric) : MAE, MSE, RMSE
- Classifier 평가 : Confusion Matrix, ROC, AUC
- Train/Test Split 방법, Cross-Validated AUC 짧은 소개
- Validation Set Approach (Train/Test Split)
- K-Fold Cross Validation
- Regression Model의 Test MSE 추정
- Hyper Parameter 튜닝 : KNN Regression 에서 K 선정
- Classification Model에서 Cross-Validated AUC 계산
- Decision Tree (의사결정 트리)
- Random Forest
- Gradient Boosting
- Support Vector Machine
- Grid Search CV를 통한 Test Performance 추정 및 패러미터 튜닝
- Randomized Search CV를 통한 Test Performance 추정 및 패러미터 튜닝
- Gradient Boosting, SVM, Grid Search CV 및 Randomized Search CV 이용한 실제적 실습
Regression과 Classification 사용을 익히고, Cross-Validation 또는 Train/Test split을 통해 Test Performance 추정과 패러미터 튜닝
- Principal Component Analysis (PCA)
- 간단히 직접 PCA를 만들어 PCA 이해
- scikit-learn PCA 사용하기
- Clustering
- K-Means
- scikit-learn의 Hierarchical Clustering
- SciPy의 Hierarchical Clustering
- 실습 - NCI60 데이터 활용
- NCI60에 PCA 적용하기
- NCI60에 Clustering 적용
- 전체 데이터
- Principal Component에 대해
- NCI60에 Classification 실행 - Gene Expression으로 종양 타입 예측
- Principal Component 활용
- Gradient Boosting Machine 활용
- Grid Search CV를 활용해 최적 패러미터 탐색
- scikit-learn의 LinearRegression estimator에 적용하기 위해
- categorical 변수, polynomial regression, interaction preprocessing