높은 확률값이 나오는 데이터 위주로 다시 학습에 가져가겠다는 것.

예를들어 로지스틱 회귀분석(logistic regression) 결과 한 데이터에 대한 1일 확률값이 0.95가 나온 경우가 있고 0.55가 나온 경우가 있다면, 0.95로 예측한 데이터를 가져간다는 뜻.

즉, 예측을 진행하고 예측에서 높은 확률이 나오면 그 데이터를 labeled data로 치환하고 그렇지 못한 데이터들에 대해서 학습을 시키는 것

Untitled

이런 방식은 outlier에 대해서 취약할 수 있다.

ex) k-nearest neighbor 모델

k = 1에 넣고 데이터를 하나씩만 제공

iter가 반복됨에 따라 정확하게 분류

하지만 Outlier(혹은 Nosie)가 있다면?

그 아래 그림처럼 될 수 있다

Untitled

Untitled

Advantages & Disadvantages

장점

단점