2022.8.16
1. Decision Tree와 Randon Forest & Neural Network
본 세미나에서는 Decision Tree와 Randon Forest & Neural Network의 내용을 다뤘다. 지난 세미나에서는 결측치를 다루는 방법에 대한 내용을 다뤘다. 1) Deletion: 결측치 제거시 목록 삭제와 단일값 삭제로 나눠 제거 할 수 있다. 2) Imputation: 특정 값으로 대치해 볼 수 있다.이때 mode, median, mean, Similar case Imputatation, Generalized Imputation 으로 나눠 진행해 볼 수 있다.
본격적으로 Decision Tree는 지도학습 모델로 분류와 회귀에 널리 사용되는 모델이다. 기본적으로 O/X 로 질문을 학습한다. 예로는 스무고개 놀이의 질문과도 유사하다. 회귀에서는 부모 노드의 오차(MSE, MAE)를 많이 감소시키는 설명 변수와 분리 값을 기준으로 자식 노드를 생성한다. 분류의 경우 오차 함수는 지니지수, 엔트로피 지수를 이용해서 구한다. Dicision Tree의 장점은 직관적인 해석이 가능하다는 것이다. 하지만 단점으로 모델이 복잡해지고 훈련 데이터에 과대적합(나무의 최종 노드의 개수를 늘리면)된다는 것이다. 즉, 결정 트리의 깊이를 제한하지 않으면 트리는 무한정 깊어지고 복잡해질 수 있다. 그래서 가지치기하지 않은 트리는 과대적합되기 쉽고 새로운 데이터에 잘 일반화되지 않는다. 이는 일정 깊이에 도달시 트리의 성장을 멈추게 해 Overfitting을 막을 수 있다. 또한 결정경계가 클래스의 포인트들에서 멀리 떨어진 이상치 하나에 너무 민감하다.(적은 개수의 nois에 크게 영향을 받는다)
Randon Forest는 다수의 Dicision Tree에 의한 예측을 종합하는 앙상블 방법이다. 앞서 확인한 것처럼 결정 트리의 주요 단점은 훈련 데이터에 과대적합되는 경향이 있다는 것이다. 이는 서로 다른 방향으로 과대적합된 트리를 많이 만들면 그 결과를 평균냄으로써 과대적합된 양을 줄일 수 있다. 앙상블 학습 유형으로 Voting, Bagging, Boosting, Stacking 으로 나눠볼 수 있다. Bagging은 각각의 Tree를 독립적으로 학습된다. 이는 병렬적으로 학습이 가능하며, 학습 속도가 빠르다. Boosting은 Random Forest의 대표적인 예로 각각의 Tree가 의존적이다. 직렬적으로 학습이 되며, 학습 속도가 현저하게 느리다. 다만 학습 성능이 강력하게 좋다. Overfitting 조심해야 한다.(XGB 이후 알고리즘에서 이 문제를 해결하고 병렬화시킴- 속도 개선)
Neural Network에서는 전체적인 학습 방법에 대한 내용을 소개하였다(순전파 역전파 계산 방법). 1번의 역전파로 오차가 감소하였는데, 인공 신경망의 학습은 오차를 최소화하는 가중치를 찾는 목적으로 순전파와 역전파를 반복하는 것이다.
이번 세미나를 통해 Decision Tree와 Randon Forest의 전반적인 내용을 다시 복습하는 내용도 있었지만, 몰랐던 부분을 찾아보면서 의미있는 시간이었다. 그 중 XGBoost가 성능이 좋고 병렬처리가 가능하기 때문에 한 번 사용해 보고 싶다는 생각이 들었다.
2. Hypothesis & Gradient Descent
본 세미나에서는 Hypothesis & Gradient Descent의 내용을 소개했다. 지난 세미나에서는 전반적인 데이터 과학에 대한 내용을 다뤘다. 보충 설명으로 상관계수는 -1~1 사이로 0에 가까울 수록 선형 관계가 약해진다는 특징이 있다.
Hypothesis part에서는 귀무가설을 세우고 실행되기까지의 내용을 전반적으로 설명했다. 가설로 1~10의 숫자를 뽑고 5가 뽑힐 확률이 10%이고, 모평균이 100이라고 하였을 때 이를 확신할 수 있을까? 라는 질문이 있다. P-Value를 통해 실험이 가설과 얼마나 차이가 있는지 정량화해 확인해 보면, 모평균이 100일 경우 P-Value가 0.84, 101일 경우 P-Value가 0.0005로 얼마나 귀무가설이 참인지 확신해 볼 수 있다. Gradient Descent는 손실 함수로 MSE를 사용한다. 이를 편미분 과정을 통해 보여주었다. 이번 세미나를 통해 P-value의 정확한 개념을 다시 찾아보게 되어서 좋았다.
'기타 > 기록' 카테고리의 다른 글
[기록] 2022.08.18 (0) | 2022.08.18 |
---|---|
[기록] 2022.08.17 (0) | 2022.08.17 |
[기록] 2022.08.16~20 (0) | 2022.08.16 |
[기록] 2022.08.15 (0) | 2022.08.16 |
[lab] 학부 연구생 미팅: 연구 진행 방향 (0) | 2022.08.09 |
2022.8.16
1. Decision Tree와 Randon Forest & Neural Network
본 세미나에서는 Decision Tree와 Randon Forest & Neural Network의 내용을 다뤘다. 지난 세미나에서는 결측치를 다루는 방법에 대한 내용을 다뤘다. 1) Deletion: 결측치 제거시 목록 삭제와 단일값 삭제로 나눠 제거 할 수 있다. 2) Imputation: 특정 값으로 대치해 볼 수 있다.이때 mode, median, mean, Similar case Imputatation, Generalized Imputation 으로 나눠 진행해 볼 수 있다.
본격적으로 Decision Tree는 지도학습 모델로 분류와 회귀에 널리 사용되는 모델이다. 기본적으로 O/X 로 질문을 학습한다. 예로는 스무고개 놀이의 질문과도 유사하다. 회귀에서는 부모 노드의 오차(MSE, MAE)를 많이 감소시키는 설명 변수와 분리 값을 기준으로 자식 노드를 생성한다. 분류의 경우 오차 함수는 지니지수, 엔트로피 지수를 이용해서 구한다. Dicision Tree의 장점은 직관적인 해석이 가능하다는 것이다. 하지만 단점으로 모델이 복잡해지고 훈련 데이터에 과대적합(나무의 최종 노드의 개수를 늘리면)된다는 것이다. 즉, 결정 트리의 깊이를 제한하지 않으면 트리는 무한정 깊어지고 복잡해질 수 있다. 그래서 가지치기하지 않은 트리는 과대적합되기 쉽고 새로운 데이터에 잘 일반화되지 않는다. 이는 일정 깊이에 도달시 트리의 성장을 멈추게 해 Overfitting을 막을 수 있다. 또한 결정경계가 클래스의 포인트들에서 멀리 떨어진 이상치 하나에 너무 민감하다.(적은 개수의 nois에 크게 영향을 받는다)
Randon Forest는 다수의 Dicision Tree에 의한 예측을 종합하는 앙상블 방법이다. 앞서 확인한 것처럼 결정 트리의 주요 단점은 훈련 데이터에 과대적합되는 경향이 있다는 것이다. 이는 서로 다른 방향으로 과대적합된 트리를 많이 만들면 그 결과를 평균냄으로써 과대적합된 양을 줄일 수 있다. 앙상블 학습 유형으로 Voting, Bagging, Boosting, Stacking 으로 나눠볼 수 있다. Bagging은 각각의 Tree를 독립적으로 학습된다. 이는 병렬적으로 학습이 가능하며, 학습 속도가 빠르다. Boosting은 Random Forest의 대표적인 예로 각각의 Tree가 의존적이다. 직렬적으로 학습이 되며, 학습 속도가 현저하게 느리다. 다만 학습 성능이 강력하게 좋다. Overfitting 조심해야 한다.(XGB 이후 알고리즘에서 이 문제를 해결하고 병렬화시킴- 속도 개선)
Neural Network에서는 전체적인 학습 방법에 대한 내용을 소개하였다(순전파 역전파 계산 방법). 1번의 역전파로 오차가 감소하였는데, 인공 신경망의 학습은 오차를 최소화하는 가중치를 찾는 목적으로 순전파와 역전파를 반복하는 것이다.
이번 세미나를 통해 Decision Tree와 Randon Forest의 전반적인 내용을 다시 복습하는 내용도 있었지만, 몰랐던 부분을 찾아보면서 의미있는 시간이었다. 그 중 XGBoost가 성능이 좋고 병렬처리가 가능하기 때문에 한 번 사용해 보고 싶다는 생각이 들었다.
2. Hypothesis & Gradient Descent
본 세미나에서는 Hypothesis & Gradient Descent의 내용을 소개했다. 지난 세미나에서는 전반적인 데이터 과학에 대한 내용을 다뤘다. 보충 설명으로 상관계수는 -1~1 사이로 0에 가까울 수록 선형 관계가 약해진다는 특징이 있다.
Hypothesis part에서는 귀무가설을 세우고 실행되기까지의 내용을 전반적으로 설명했다. 가설로 1~10의 숫자를 뽑고 5가 뽑힐 확률이 10%이고, 모평균이 100이라고 하였을 때 이를 확신할 수 있을까? 라는 질문이 있다. P-Value를 통해 실험이 가설과 얼마나 차이가 있는지 정량화해 확인해 보면, 모평균이 100일 경우 P-Value가 0.84, 101일 경우 P-Value가 0.0005로 얼마나 귀무가설이 참인지 확신해 볼 수 있다. Gradient Descent는 손실 함수로 MSE를 사용한다. 이를 편미분 과정을 통해 보여주었다. 이번 세미나를 통해 P-value의 정확한 개념을 다시 찾아보게 되어서 좋았다.
'기타 > 기록' 카테고리의 다른 글
[기록] 2022.08.18 (0) | 2022.08.18 |
---|---|
[기록] 2022.08.17 (0) | 2022.08.17 |
[기록] 2022.08.16~20 (0) | 2022.08.16 |
[기록] 2022.08.15 (0) | 2022.08.16 |
[lab] 학부 연구생 미팅: 연구 진행 방향 (0) | 2022.08.09 |