banner

블로그

Oct 05, 2023

메릴랜드 대학교와 NYU의 시각적 탐색을 통해 비전 트랜스포머가 배우는 내용 공개

새 논문에서 Vision Transformers는 무엇을 학습합니까? 메릴랜드 대학과 뉴욕 대학의 연구팀인 시각적 탐색은 다양한 비전 변환기의 대규모 특징 시각화를 사용하여 이미지에서 학습한 내용과 컨볼루션 신경망과의 차이점에 대한 통찰력을 얻습니다.

2020년에 도입된 ViT(비전 변환기)는 객체 감지 및 이미지 인식부터 의미론적 분할에 이르는 작업에서 최첨단 성능을 달성하면서 선도적인 컴퓨터 비전 아키텍처가 되었습니다. 그러나 ViT의 성공에 기여하는 내부 메커니즘, 즉 ViT가 이미지에서 실제로 무엇을 어떻게 배우는지 이해하는 것은 여전히 ​​어려운 일입니다.

새 논문에서 Vision Transformers는 무엇을 학습합니까? 메릴랜드 대학과 뉴욕 대학의 연구팀인 시각적 탐색은 다양한 ViT의 대규모 기능 시각화를 사용하여 이미지에서 학습한 내용과 CNN(컨볼루션 신경망)과의 차이점에 대한 통찰력을 얻습니다.

팀은 주요 기여를 다음과 같이 요약합니다.

기존 시각화 방법과 마찬가지로 팀은 경사 단계를 사용하여 무작위 노이즈로부터 기능 활성화를 최대화합니다. 이미지 품질을 향상시키기 위해 전체 변형(Mahendran & Vedaldi, 2015)에 불이익을 주고 Jitter Augmentation(Yin et al., 2020), ColorShift Augmentation 및 Augmentation ensembling(Ghiasi et al., 2021) 기술을 채택합니다.

특정 시각화된 기능의 콘텐츠를 더 깊이 이해할 수 있도록 팀은 각 시각화를 관련 기능과 관련하여 가장 강력한 활성화 효과가 있는 ImageNet 검증/훈련 세트의 이미지와 결합합니다. ViT 네트워크를 통해 가장 활성화된 이미지를 전달하고 결과적인 기능 활성화 패턴을 표시하여 기능의 활성화 패턴을 표시합니다.

팀은 먼저 활성화된 뉴런을 최대화하여 키, 쿼리 및 값을 포함한 ViT의 다방향 주의 계층 기능을 시각화하려고 시도합니다. 그런 다음 패치별 기능 활성화 수준의 시각화에서 패치별 공간 정보 보존을 연구하여 놀랍게도 모든 패치가 다른 모든 패치의 표현에 영향을 미칠 수 있지만 표현은 로컬로 유지된다는 사실을 발견했습니다. 이는 ViT가 처음부터 공간 정보를 학습하고 보존한다는 것을 나타냅니다.

또한 팀은 이러한 공간 정보 보존이 네트워크의 마지막 어텐션 블록에서 포기되어 평균 풀링과 유사하게 작동한다는 사실도 발견했습니다. 그들은 클래스 토큰(CLS)이 전체 이미지에 액세스할 수 있도록 네트워크가 마지막 계층의 정보를 세계화한다고 추론하고, CLS 토큰은 전체 네트워크에서 상대적으로 작은 역할을 하며 이 마지막 계층까지 세계화에 사용되지 않는다고 결론지었습니다. .

실증적 연구에서 연구원들은 ViT의 피드포워드 레이어의 고차원 내부 투영이 해석 가능한 이미지를 생성하는 데 적합하지만 self-attention의 핵심, 쿼리 및 가치 기능은 그렇지 않다는 것을 발견했습니다. CNN과 ViT 비교에서 팀은 ViT가 배경 정보를 더 잘 활용하고 훨씬 더 우수한 예측을 할 수 있다는 것을 관찰했습니다. 언어 모델 감독으로 훈련된 ViT는 더 나은 의미론적 및 개념적 특징을 얻는 것으로 나타났습니다.

전반적으로 이 작업은 효과적이고 해석 가능한 시각화 접근 방식을 사용하여 ViT의 작동 방식과 학습 내용에 대한 귀중한 통찰력을 제공합니다.

코드는 프로젝트의 GitHub에서 사용할 수 있습니다. Vision Transformers는 무엇을 배우나요? 시각적 탐색은 arXiv에 있습니다.

작가: 헤카테 그 |편집자: 마이클 사라젠

우리는 귀하가 어떤 뉴스나 획기적인 연구 결과도 놓치고 싶지 않다는 것을 알고 있습니다.주간 AI 업데이트를 받으려면 인기 뉴스레터인 Synced Global AI Weekly를 구독하세요.

기계 지능 | 기술 및 산업 | 정보 및 분석

Pingback에서: Maryland U & NYU의 시각적 탐색을 통해 Vision Transformers가 학습하는 내용 공개 | 동기화 -

공유하다