기타정보

분류모델 생성 알고리즘 Bagging과 Boosting

쿠카곰돌이 2020. 1. 22. 00:28
반응형

토픽 이름

Bagging(배깅)

분류

데이터베이스 > Big Data > Bagging(배깅)

키워드(암기)

(리드문)

앙상블 > Bagging, Boosting

Bagging : 여러 모델의 평균분포, Bootstrap aggregating

Boosting : weak classifier의 가중치 부여

암기법

(해당경우)

 

 

기출문제

번호

문제

회차

1

4. 빅데이터 분석방법인 Bagging과 Boosting 기법을 비교하여 설명하시오

105_관리_1

2

12. Bagging과 Boosting을 설명하시오.

모의_2018.07_응용_1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I.   분류모델 생성 알고리즘 Bagging과 Boosting

Bagging

Boosting

- 주어진 데이터에서 여러 개의 bootstrap 자료를 생성하고 자료를 모델링   결합(Bootstrap Aggregating)하여 최종 예측 모형을 만드는 알고리즘

- 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류규칙을 만들고 과정을 반복해 최종 예측 모형을 만드는 Boosting(변형알고리즘

- Bagging과 Boosting은 데이터 마이닝에서 분류를 수행하기 위한 분류모델을 생성하는 알고리즘

II.   Bagging과 Boosting 알고리즘 비교 설명

가.   Bagging과 Boosting 알고리즘 수행방법 비교

구분

설명

Bagging

 

1) Row data에서 bootstrap 데이터 추출

2) 추출을 반복하여 n개의 데이터 생성

3) 각 데이터를 각각 모델링 하여 모델 생성

4) 단일 모델을 결합하여 배깅 모델 생성

Boosting

 

1) Row data에 동일가중치로 모델 생성

2) 생성된 모델로 인한 오분류 데이터 수집

3) 오분류 데이터에 높은 가중치 부어

4) 과정 반복을 통하여 모델의 정확도 향상

Bagging
Boosting

- Bagging은 여러 번의 sampling을 통해 분산을 줄여 모델의 변동성을 감소시키는 방법 

- Boosting은 잘못 분류된 데이터에 집중해 모델의 정확도를 향상시키는 방법

나.   Bagging과 Boosting 알고리즘의 기술적 특징 비교

항목

Bagging

Boosting

수행원리

- 샘플링에 의한 결합

- 가중치 재조정에 의한 반복

수행목적

- 모델의 변동성(분산) 감소

- 모델의 정확도 향상

적용연산

- 평균다중투표

- 가중치 선형 결합

초기모델

- Bootstrap 모델 (개별 모델)

- Weak classification 모델

최종모델

- Bagging 모델 (결합 모델)

- Strong classification 모델

분류성능

- 데이터에 결측치(missing data) 존재할 경우 우수

- 데이터의 수가 많을 경우 우수

- 데이터 마이닝에서 분류문제를 해결하고자 할 때 중요한 문제는 주어진 데이터를 이용해 목표변수를 가장 잘 예측할 수 있는 모델을 생성하는 것이므로, 데이터 특성에 따라 모델을 생성하는 알고리즘의 선택적 적용이 필요함 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[참고]

 

 

 

 

 

 

반응형