-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path220529 따릉이 스터디.txt
93 lines (61 loc) · 2.84 KB
/
220529 따릉이 스터디.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
특이하게 튀어 나와있는게 많을 수록 그 feature가 결과에 영향을 많이 미침
시간 당 temp
x: 시간, y: 시간당 온도 시각화
seaborn의 heatmap (corr)
점수 높이는 tech: feature 뽑아내기
0.4가 넘는 걸 뽑아내
=> 정확성에 영향을 줄 수 있다.
RF알고리즘에 결측치 자동으로 채워넣어서 돌림.
(rf는 nan 채워야 함.)
svm은 결측치 안채워넣어도 됨.
상관계수가 높은 feature만 선정해서 모델 돌리기
==> 왜 EDA를 하는 가에 대한 이유
비어있는 NaN값을 어떻게 채워넣어야 하는가?
결측치 채우는 방법 3가지:
평균, 0, 이전 값, 중간값,...(그치만 결측치를 어떻게 채우든 정확도(점수)에 그렇게 큰 영향을 끼치지 않는다.)
fillna의 method = 'pad' 옵션으로 이전값으로 결측치 채우기
모델에 얼마나 영향을 주는지 시각화
msna 모듈 사용
null이 있는 컬럼 자체를 모델링할 때 빼도 될 것 같으면
rf의 경우 -1로 fillna하면 해당 컬럼 자체가 무시 되더라.
결측치와 상관계수가 어떤 영향을 미치는지에 대해....
decision tree 여러개 모아둔게 rf
모델 선택 방법은 회귀냐 분류냐
결측치 개수에 따라
선형인지 비선형인지에 따라...
선택하는 알고리즘이 달라짐
모델,,, 상투적으로 쓰는,,, 복붙해서 인자만 바꾸는...
모델 성능만 좋아지게 되면 점수는 나온다.
어떤 알고리즘으로 굴러갈지에 대해...
스터디 파이프라인
궁금한거 공부해서 발표?
tableau 생각해보기
<학습 단계>
1. EDA
2. 전처리
3. <u>변수 선택</u> 및 모델 구축
4. 모델 학습 및 검증
- [피어슨통계?]
- [상관계수를 어느 타이밍에 쓰는지?]
어떤 데이터에 쓸 수 있는지
상관계수가 먹히는 데이터인지 아닌지?에 대한 공부가 필요해 보임.
직관적인 상관계수 시각화?
보통은 scatter를 쓴다고 한다.
- [rf 어떻게 굴러가는지?, 그 특징 발표]
Random Forest Regressor
rf regressor가 어떤 식으로 구동되는지에 대한...
- [하이퍼 파라미터 튜닝]
depth 증가하면 알고리즘 성능이 좋아진다.
but 알고리즘 성능이 높아진다고 점수가 높아지는 것은 아니다.
- [시각화에 대한 공부]..
- [회귀...알고리즘에 대한 공부]....
선형회귀, svm, decision tree 정확도 비교?
정확도 비교 후 한 알고리즘이 다른 알고리즘에 비해 더 높게 나왔다면 그 근거 찾기....
아휴...
>> 모델 및 결론
<<기본적인 알고리즘의 사용 방법>>
1. X, y만들기 (train, test)
2. 알고리즘 하이퍼 파라미터 튜닝 = model
3. model에 X, y넣고 fit (train) => fit하면 모델이 나옴.
4. 모델에 X넣고 predict (test)
5. 층에서 나온 걸 다른 모델에 넣어서 ... 앙상블