[Paper review] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
서론
이 논문에서는 주로 자연어 처리(NLP)에서 성공적이었던 트랜스포머 아키텍처를 이미지 분류 작업에 직접 적용하는 방법을 선보입니다. 이 연구는 이미지를 직렬 패치 시퀀스로 변환하고 표준 트랜스포머 인코더를 통해 처리하는 Vision Transformer (ViT)라는 새로운 모델을 소개함으로써 중요한 전환점을 제시합니다. 이 접근 방식은 컨볼루션 신경망(CNN)에 의존하지 않고도 뛰어난 결과를 달성할 수 있음을 보여줍니다.
연구 배경
트랜스포머 모델은 NLP 분야에서 큰 성공을 거두었으며, 특히 대규모 데이터셋에서 사전 학습 후 특정 작업에 미세 조정을 통해 뛰어난 성능을 발휘합니다. 이미지 인식 분야에서도 유사한 성공을 거두기 위해, 연구자들은 이미지를 일련의 패치로 분할하고 각 패치를 선형적으로 임베딩한 후 트랜스포머에 입력하는 방식을 시도합니다.
ViT 아키텍처
ViT는 이미지를 고정 크기 패치로 분할하고, 이 패치들을 플래트하게 만든 다음 선형 투사를 사용하여 임베딩합니다. 이 임베딩들은 위치 정보를 유지하기 위해 위치 임베딩과 결합되며, 이는 트랜스포머 인코더로 입력됩니다. ViT는 표준 트랜스포머 구조를 따르며, 이미지 인식을 위해 분류 토큰을 추가로 사용합니다.
핵심 결과
ViT는 대규모 데이터셋에서 사전 학습할 때 뛰어난 성능을 보여주며, 특히 JFT-300M 데이터셋에서 사전 학습된 모델은 여러 벤치마크에서 최첨단 CNN 모델을 능가합니다. 이는 트랜스포머가 이미지 인식 작업에 있어서 CNN과 동등하거나 우수한 대안이 될 수 있음을 시사합니다.
결론 및 미래 전망
이 연구는 이미지 인식에서 트랜스포머의 잠재력을 보여주며, 더 크고 다양한 데이터셋을 사용한 트랜스포머의 확장 가능성을 열어줍니다. 트랜스포머가 다른 컴퓨터 비전 작업에서 어떻게 적용될 수 있는지, 그리고 자기지도 학습 같은 방법을 통해 어떻게 더욱 향상될 수 있는지에 대한 추가 연구가 기대됩니다.
이 논문은 이미지 인식 분야에서 트랜스포머의 가능성을 탐색하는 중요한 출발점을 제공하며, 앞으로 이 분야에서의 연구 방향에 큰 영향을 미칠 것으로 보입니다.