Focal Loss는 간단히 말하면 Cross Entropy의 클래스 불균형 문제를 다루기 위한 개선된 버 어렵거나 쉽게 오분류되는 케이스에 대하여 더 큰 가중치를 주는 방법을 사용 (객체 일부분만 있거나, 실제 분류해야 되는 객체들이 이에 해당합니다.) 반대로 쉬운 케이스의 경우 낮은 가중치를 반영합니다. (background object가 이에 해당합니다.)
Focal Loss가 등장하고 처음 사용된 곳은 Object Detection으로 이미지의 특성상 모델이 찾아야 하는 객체보다 배경이 많기 때문에 이를 보완하고자 Focal Loss라는 개념이 등장했다.
클래스 불균형 문제는 다음 2가지 문제의 원인이 된다.
① 대부분의 Location은 학습에 기여하지 않는 easy negative(하늘, 산 등)이므로 학습에 비효율적이다.
② easy negative 각각은 높은 확률로 객체가 아니기에 loss 값은 작다. 하지만 비율이 굉장히 크므로 전체 loss 및 gradient를 계산할 때, easy negative의 영향이 압도적으로 커지는 문제가 발생한다
기존 Cross Entropy Loss는 아래와 같다
이를 Y=1인 케이스에 대해 표기하면 아래와 같다.
여기서 Focal loss는 $(1-p_t)^\gamma$의 term을 추가한다. 기본적인 Cross Entropy는 γ가 0일 때 이다.