토픽 이름 |
과적합(overfitting)문제 |
분류 |
데이터베이스 > Big Data > 과적합(overfitting)문제 |
키워드(암기) |
(리드문) 과잉학습으로 인한 폐해 |
과소적합, 정정적합, 과(잉)적합 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
암기법 (해당경우) |
|
기출문제
번호 |
문제 |
회차 |
1 |
14. Overfitting과 Underfitting의 발생원인과 대응방안에 대해 설명하시오. |
합숙_2019.01_응용_Day-1 |
2 |
|
합숙_2018.08_관리_Day-3 |
3 |
|
합숙_2017.08_관리_Day-4 |
4 |
13. Overfitting과 Underfitting을 설명하시오. |
모의_2018.07_관리_1 |
5 |
2. 머신러닝 학습에서 발생하는 언더피팅(Underfitting)과 오버피팅(Overfitting)에 대해서 설명하고 극복 방안에 대해서 제시하시오. |
모의_2018.05_응용_4 |
6 |
|
모의_2017.04_관리_3 |
II. 과잉 학습으로 인한 폐해, 과적합(Overfitting)의 개요
나. 과적합(Overfitting)의 정의
- Supervised Learning을 통해 만들어진 모델이 학습 데이터(Training data) 내에서는 분류가 잘 되지만, 새로운 데이터(Unseen Data Or Test Data)에서는 분류 성능이 떨어지는 상황
- 기계학습 시 관심집단을 대표할 수 있는 패턴이나 관계를 찾아 훈련 데이터 집합 생성하는 과정에서 너무 학습을 많이 해서 불필요한 내용까지 학습된 상태
다. 과적합의 발생원인
발생원인 |
설명 |
Overtraining |
- 지나친 학습 |
지나친 튜닝 |
- Sparse data 처리를 위한 Smoothing 기법 - Over-fitting due to Noise |
Data Skewness |
- 범주 별 데이터셋을 잘 분류하지 못한 경우 |
부족한 사례 |
- Over-fitting due to Insufficient example |
과도하게 복잡한 모형 |
- unnecessarily complex model |
III. 과적합 유형
구분 |
설명 |
과소적합 (Under-fitting) |
- 훈련이 덜 된 상태. (정확도 60%) |
적정적합 (Generalized-fitting) |
- |
과(잉)적합 (Over-fitting) |
- 모델이 삐뚤빼뚤 비선형, 아주 복잡 - 분류 모델을 새로운 데이터셋, 즉 테스트 셋(Test set)에 적용해서 분류, 정확도 65%로 감소 |
IV. 과적합 대응방안
2) 모수 집단의 일정크기, 범위 선택하여 새로운 데이터 범위 축소
3) 교차검증을 많이 수행하여 보다 일반적인 모델을 도출
4) 여러 모델을 가지고 작업하여 결과 비교분석
V. 과적합의 사례 및 활용방안
나. 지진을 예측(케일리스-보르크)
- '신호와 소음'에 소개된 성적표에 의하면, "이 모델은 믿을 수 없을 만큼 복잡한 방정식들을 동원해 소음에 물든 자료들에까지 적합하게 만들어졌다. 그리고 결국은 대가를 치러야 했다. 스물여섯 개 예측을 했지만
세 개 밖에 적중하지 못했다
다. 오컴의 면도날(Occam’s Razor)
- 복잡한 모델보다는 단순한 모델을 선택(선호)하라고 합니다.
- Variable, Feature를 있는 것 모두 때려 집어넣고 모델 만들지 말고 똘똘한 Variable, Feature를 선별해서 가능한 단순하게 만들라는 것입니다.
- 복잡한 비선형 모델보다는 선형모델을 더 선호
'기타정보' 카테고리의 다른 글
분류모델 생성 알고리즘 Bagging과 Boosting (0) | 2020.01.22 |
---|---|
빅데이터 분석기법, Random Forest의 개요 (0) | 2020.01.21 |
기업의 차세대 생존전략, 빅 데이터의 개요 (0) | 2020.01.21 |
빅데이터 시각화 (0) | 2020.01.21 |
공공정보의 민간개방을 통한 선순환 생태계 조성, 오픈데이터(Open Data) 개요 (0) | 2020.01.21 |