토픽 이름 |
Bagging(배깅) |
분류 |
데이터베이스 > Big Data > Bagging(배깅) |
키워드(암기) |
(리드문) |
앙상블 > Bagging, Boosting Bagging : 여러 모델의 평균분포, Bootstrap aggregating Boosting : weak classifier의 가중치 부여 |
|
암기법 (해당경우) |
|
기출문제
번호 |
문제 |
회차 |
1 |
4. 빅데이터 분석방법인 Bagging과 Boosting 기법을 비교하여 설명하시오 |
105_관리_1 |
2 |
12. Bagging과 Boosting을 설명하시오. |
모의_2018.07_응용_1 |
I. 분류모델 생성 알고리즘 Bagging과 Boosting
Bagging |
Boosting |
- 주어진 데이터에서 여러 개의 bootstrap 자료를 생성하고, 각 자료를 모델링 한 후 결합(Bootstrap Aggregating)하여 최종 예측 모형을 만드는 알고리즘 |
- 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류규칙을 만들고, 이 과정을 반복해 최종 예측 모형을 만드는 Boosting(변형) 알고리즘 |
- Bagging과 Boosting은 데이터 마이닝에서 분류를 수행하기 위한 분류모델을 생성하는 알고리즘
II. Bagging과 Boosting 알고리즘 비교 설명
가. Bagging과 Boosting 알고리즘 수행방법 비교
구분 |
설명 |
Bagging |
|
1) Row data에서 bootstrap 데이터 추출 2) 추출을 반복하여 n개의 데이터 생성 3) 각 데이터를 각각 모델링 하여 모델 생성 4) 단일 모델을 결합하여 배깅 모델 생성 |
|
Boosting |
|
1) Row data에 동일가중치로 모델 생성 2) 생성된 모델로 인한 오분류 데이터 수집 3) 오분류 데이터에 높은 가중치 부어 4) 과정 반복을 통하여 모델의 정확도 향상 |
- Bagging은 여러 번의 sampling을 통해 분산을 줄여 모델의 변동성을 감소시키는 방법
- Boosting은 잘못 분류된 데이터에 집중해 모델의 정확도를 향상시키는 방법
나. Bagging과 Boosting 알고리즘의 기술적 특징 비교
항목 |
Bagging |
Boosting |
수행원리 |
- 샘플링에 의한 결합 |
- 가중치 재조정에 의한 반복 |
수행목적 |
- 모델의 변동성(분산)을 감소 |
- 모델의 정확도 향상 |
적용연산 |
- 평균, 다중투표 |
- 가중치 선형 결합 |
초기모델 |
- Bootstrap 모델 (개별 모델) |
- Weak classification 모델 |
최종모델 |
- Bagging 모델 (결합 모델) |
- Strong classification 모델 |
분류성능 |
- 데이터에 결측치(missing data)가 존재할 경우 우수 |
- 데이터의 수가 많을 경우 우수 |
- 데이터 마이닝에서 분류문제를 해결하고자 할 때 중요한 문제는 주어진 데이터를 이용해 목표변수를 가장 잘 예측할 수 있는 모델을 생성하는 것이므로, 데이터 특성에 따라 모델을 생성하는 알고리즘의 선택적 적용이 필요함
[참고]
'기타정보' 카테고리의 다른 글
상호 배제(Lock, Unlock) 기능을 사용하는 동시성 제어 기법, Locking 기법 개요 (0) | 2020.01.22 |
---|---|
분류모델 생성 알고리즘 Bagging과 Boosting (0) | 2020.01.22 |
빅데이터 분석기법, Random Forest의 개요 (0) | 2020.01.21 |
과잉 학습으로 인한 폐해, 과적합(Overfitting)의 개요 (0) | 2020.01.21 |
기업의 차세대 생존전략, 빅 데이터의 개요 (0) | 2020.01.21 |