기타정보

과잉 학습으로 인한 폐해, 과적합(Overfitting)의 개요

쿠카곰돌이 2020. 1. 21. 23:59
반응형

토픽 이름

과적합(overfitting)문제

분류

데이터베이스 > Big Data > 과적합(overfitting)문제

키워드(암기)

(리드문) 과잉학습으로 인한 폐해

과소적합, 정정적합, 과(잉)적합

 

 

 

 

 

 

 

암기법

(해당경우)

 

 

기출문제

번호

문제

회차

1

14. Overfitting과 Underfitting의 발생원인과 대응방안에 대해 설명하시오.

합숙_2019.01_응용_Day-1

2




5. 기계학습 모델 개발시 필요한 항목에 대해 설명하시오.가. 과소적합(Under Fitting), 과잉적합(Over Fitting)나. 바이어스(Bias)와 분산(Valiance)다. 모델 검증방법

합숙_2018.08_관리_Day-3

3


6. 기계학습(Machine Learning)의 훈련중에 발생하는 Overfitting 과 Underfitting개념을 설명하고, 해결방법을 제시하시오.

합숙_2017.08_관리_Day-4

4

13. Overfitting과 Underfitting을 설명하시오.

모의_2018.07_관리_1

5

2. 머신러닝 학습에서 발생하는 언더피팅(Underfitting)과 오버피팅(Overfitting)에 대해서 설명하고 극복 방안에 대해서 제시하시오.

모의_2018.05_응용_4

6




6. 신경망에서는 뉴런 사이 정보 전달 과정에 작용하는 최적의 가중치를 알아내는 과정이 중요하다. 이와 관련된 다음 개념에 대하여 설명하시오.가. 역전파 알고리즘(Backpropagation)과 경사감소법(Gradient Descent)나. 경사감소소멸(Vanishing Gradient Descent)다. 과적합(Overfitting)

모의_2017.04_관리_3

 

 

 

 

 

 

 

II.   과잉 학습으로 인한 폐해, 과적합(Overfitting)의 개요

나.   과적합(Overfitting)의 정의

-   Supervised Learning을 통해 만들어진 모델이 학습 데이터(Training data) 내에서는 분류가 잘 되지만, 새로운 데이터(Unseen Data Or Test Data)에서는 분류 성능이 떨어지는 상황

-   기계학습 시 관심집단을 대표할 수 있는 패턴이나 관계를 찾아 훈련 데이터 집합 생성하는 과정에서 너무 학습을 많이 해서 불필요한 내용까지 학습된 상태

 

다.   과적합의 발생원인

발생원인

설명

Overtraining

- 지나친 학습

지나친 튜닝

- Sparse data 처리를 위한 Smoothing 기법

- Over-fitting due to Noise

Data Skewness

- 범주 별 데이터셋을 잘 분류하지 못한 경우

부족한 사례

- Over-fitting due to Insufficient example

과도하게 복잡한 모형

- unnecessarily complex model

 

 

III.   과적합 유형

 

구분

설명

과소적합

(Under-fitting)

- 훈련이 덜 된 상태. (정확도 60%)

적정적합

(Generalized-fitting)

- 
훈련 데이터 셋을 대상으로 파란점과 빨간점을 전반적으로 적절하게 분류(정확도 90%)

과(잉)적합

(Over-fitting)

- 모델이 삐뚤빼뚤 비선형, 아주 복잡

- 분류 모델을 새로운 데이터셋, 즉 테스트 셋(Test set)에 적용해서 분류, 정확도 65%로 감소

 

IV.   과적합 대응방안

2)   모수 집단의 일정크기, 범위 선택하여 새로운 데이터 범위 축소

3)   교차검증을 많이 수행하여 보다 일반적인 모델을 도출

4)   여러 모델을 가지고 작업하여 결과 비교분석

 

V.   과적합의 사례 및 활용방안

나.   지진을 예측(케일리스-보르크)

-   '신호와 소음'에 소개된 성적표에 의하면, "이 모델은 믿을 수 없을 만큼 복잡한 방정식들을 동원해 소음에 물든 자료들에까지 적합하게 만들어졌다. 그리고 결국은 대가를 치러야 했다. 스물여섯 개 예측을 했지만 

세 개 밖에 적중하지 못했다

다.   오컴의 면도날(Occam’s Razor)

-   복잡한 모델보다는 단순한 모델을 선택(선호)하라고 합니다.

-    Variable, Feature를 있는 것 모두 때려 집어넣고 모델 만들지 말고 똘똘한 Variable, Feature를 선별해서 가능한 단순하게 만들라는 것입니다. 

-   복잡한 비선형 모델보다는 선형모델을 더 선호

 

반응형