Vision Transformers는 컴퓨터 비전 분야를 폭풍으로 점령했습니다. 그러나 Vision Transformers는 무엇을 배우나요?

ViT(비전 변환기)는 이미지 분류, 의미론적 분할, 객체 감지와 같은 비전 작업에 엄청난 인기를 얻은 일종의 신경망 아키텍처입니다. 비전과 원래 변환기의 주요 차이점은 텍스트의 개별 토큰을 이미지 패치에서 추출된 연속 픽셀 값으로 대체했다는 것입니다. ViTs는 이미지의 여러 영역에 주의를 기울이고 이를 결합하여 예측함으로써 이미지에서 특징을 추출합니다. 그러나 최근 널리 사용됨에도 불구하고 ViT가 학습하는 경향이 있는 귀납적 편견이나 특징에 대해서는 알려진 바가 거의 없습니다. 특징 시각화 및 이미지 재구성은 CNN(컨벌루션 신경망)의 작동을 이해하는 데 성공적이었지만 시각화하기 어려운 ViT를 이해하는 데는 성공하지 못했습니다.

메릴랜드 대학-칼리지파크 대학과 뉴욕 대학 연구진의 최근 연구는 ViT의 행동과 내부 처리 메커니즘에 관한 심층 연구를 통해 ViT 문헌을 확대했습니다. 저자는 ViT 모델에서 뉴런을 최대한 활성화하는 이미지를 합성하기 위한 시각화 프레임워크를 구축했습니다. 특히, 이 방법에는 생성된 이미지의 품질을 향상시키기 위해 무작위 노이즈에서 시작하여 전체 변형에 페널티를 적용하고 증강 앙상블을 사용하는 등 다양한 정규화 기술을 적용하여 특징 활성화를 극대화하기 위한 그라데이션 단계를 수행하는 방법이 포함되었습니다.

분석 결과, ViT의 패치 토큰은 CNN에서 널리 사용되는 평균 풀링 작업과 유사한 토큰 혼합 작업을 학습하는 마지막 어텐션 블록을 제외한 모든 레이어에 걸쳐 공간 정보를 보존하는 것으로 나타났습니다. 저자는 네트워크의 깊은 계층에 있는 개별 채널에 대해서도 표현이 로컬로 유지된다는 것을 관찰했습니다.

이를 위해 CLS 토큰은 네트워크 전체에서 상대적으로 작은 역할을 하는 것으로 보이며 마지막 레이어까지 세계화에 사용되지 않습니다. 저자는 레이어 1-11에서 CLS 토큰을 사용하지 않고 이미지에 대한 추론을 수행한 다음 레이어 12에서 CLS 토큰에 대한 값을 삽입하여 이 가설을 입증했습니다. 결과 ViT는 여전히 ImageNet 검증 세트의 78.61%를 성공적으로 분류할 수 있었습니다. 원래 84.20%.

따라서 CNN과 ViT는 모두 초기 레이어가 색상 및 가장자리와 같은 기본 이미지 기능을 인식하고 더 깊은 레이어가 더 복잡한 구조를 인식하는 점진적인 기능 전문화를 나타냅니다. 그러나 저자가 발견한 중요한 차이점은 배경 및 전경 이미지 기능에 대한 ViT 및 CNN의 의존도에 관한 것입니다. 이 연구에서는 이미지의 배경 정보를 사용하여 올바른 클래스를 식별하는 데 있어 ViT가 CNN보다 훨씬 우수하고 배경 제거로 인한 어려움이 적다는 사실을 관찰했습니다. 또한 ViT 예측은 ResNet 모델에 비해 고주파 텍스처 정보 제거에 더 탄력적입니다(결과는 논문의 표 2에 표시됨).

마지막으로, 연구에서는 이미지와 텍스트를 연결하는 CLIP(Contrastive Language Image Pretraining) 프레임워크에서 훈련된 ViT 모델이 학습한 표현을 간략하게 분석합니다. 흥미롭게도 그들은 분류기로 훈련된 ViT와 달리 CLIP 훈련된 ViT가 명확하게 식별 가능한 개념 범주의 객체에 의해 활성화된 더 깊은 계층에서 기능을 생성한다는 것을 발견했습니다. 이는 합리적이면서도 놀라운 일입니다. 왜냐하면 인터넷에서 사용할 수 있는 텍스트는 "이병률"과 같은 추상적이고 의미론적인 개념에 대한 대상을 제공하기 때문입니다(예는 그림 11에서 볼 수 있음).

확인해 보세요종이그리고Github. 이 연구에 대한 모든 공로는 이 프로젝트의 연구원에게 돌아갑니다. 또한, 가입하는 것을 잊지 마세요13,000개가 넘는 ML SubReddit,디스코드 채널, 그리고이메일 뉴스레터에서는 최신 AI 연구 뉴스, 멋진 AI 프로젝트 등을 공유합니다.

로렌조 브리가토(Lorenzo Brigato)는 베른대학교 산하 연구기관인 ARTORG 센터에서 박사후 연구원으로 재직하며 현재 AI를 건강과 영양에 적용하는 일에 참여하고 있다. 그는 박사 학위를 보유하고 있습니다. 이탈리아 로마 사피엔자 대학교에서 컴퓨터 과학 학위를 취득했습니다. 그의 박사 학위. 논문은 샘플 및 레이블이 부족한 데이터 분포의 이미지 분류 문제에 중점을 두었습니다.

소식

Vision Transformers는 컴퓨터 비전 분야를 폭풍으로 점령했습니다. 그러나 Vision Transformers는 무엇을 배우나요?