ResPose,ViTPose,자세추정 파이프라인 구현 | Notion

실험 결과(Train)

사용 모델 - ViTPose

ViTPose 논문 리뷰

Why ViTPose

자세 추정 분야에서 당시 SOTA 모델이며 다음과 같은 이유가 있다.

데이터 셋의 양이 많기 때문에 ViT의 성능을 제대로 사용할 수 있다고 판단함.

Encoder 내에서 패치 사이의 정보를 즉각적으로 판단하기에 관절 포인트를 찾는 것에 적합하다고 판단함.

ViT 모델과 간단한 Decoder를 사용했기 때문에 구현이 쉽고 구조를 쉽게 변경할 수 있다고 판단함.

문제점

기존 ViTPose 가이드라인

기존 ViTPose 가이드라인

Heatmap을 통해 관절의 대략적인 위치를 알 수 있지만 원본이미지와 Resize된 이미지의 해상도 차이가 클 수록 실제 관절 좌표가 부정확해짐

ViTPose의 구조 변경

Decoder 부분을 변경한 ViTPose

Decoder 부분을 변경한 ViTPose

Offset Decoder는 무슨 역할을 할까?

Output 2는 무슨 역할을 할까?

실험을 위한 ResPose

Method

시도한 방법들

방법 1 - 독립된 레이어 (실패)

방법 2 - Heatmap에 새로운 Encoder(VGG-16)를 적용 (실패)

방법 3 - Offset이 아닌 실제 좌표 Regression (성공)