자세 추정 분야에서 당시 SOTA 모델이며 다음과 같은 이유가 있다.
- 데이터 셋의 양이 많기 때문에 ViT의 성능을 제대로 사용할 수 있다고 판단함.
- Encoder 내에서 패치 사이의 정보를 즉각적으로 판단하기에 관절 포인트를 찾는 것에 적합하다고 판단함.
- ViT 모델과 간단한 Decoder를 사용했기 때문에 구현이 쉽고 구조를 쉽게 변경할 수 있다고 판단함.
기존 ViTPose 가이드라인
Heatmap을 통해 관절의 대략적인 위치를 알 수 있지만 원본이미지와 Resize된 이미지의 해상도 차이가 클 수록 실제 관절 좌표가 부정확해짐
Decoder 부분을 변경한 ViTPose
시도한 방법들
방법 1 - 독립된 레이어 (실패)
방법 2 - Heatmap에 새로운 Encoder(VGG-16)를 적용 (실패)
방법 3 - Offset이 아닌 실제 좌표 Regression (성공)