[250807 특별 세미나] AdaptFormer: Adapting Vision Transformers for Scalable…

페이지 정보

profile_image
작성자 장효영
댓글 0건 조회 17회 작성일 25-08-07 16:39

본문

[일시] 2025.08.07.

[리뷰 논문] AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

[요약]
본 발표는 Vision task에서 우수한 성능을 입증한 Vision Transformer(ViT)에 대해 파라미터 효율적인 fine-tuning 방법론을 제시한 AdaptFormer에 대해 다룬다. AdaptFormer는 수억~수십억 개의 파라미터를 포함하는 대규모 ViT 모델을 downstream task에 full fine-tuning 하는 방법론의 비효율성을 제시하며, 소수 파라미터만을 추가하여 비효율성을 해결하고자 하였다. 이를 위해 기존 vanilla ViT의 transformer encoder 블록의 MLP레이어를 병렬적인 구조의 AdaptMLP 모듈로 대체하였다. 이는 기존 ViT에서 사전학습 된 파라미터들은 고정한 상태에서 병렬적인 bottle neck 구조로 특정 데이터 도메인에서 업데이트되는 소수 파라미터들의 가중치만을 불러오는 방식으로 진행되었으며, 이는 MLP 레이어를 활용하는 다양한 transformer 기반 구조들에 대해 plug-and-play 방식으로 적용이 가능하여 vision task에서의 확장성을 제시하였다. 또한 이러한 병렬적인 adapter구조를 통해 여러 downstream task에 대해 반복적으로 fine-tuning할때 발생되는 파라미터 간섭이 발생했던 기존 방법론들 대비 우수한 성능을 입증하였다. 

실험은 5종류의 이미지 및 비디오 데이터 셋에 대한 광범위한 실험으로 제안 방법론의 강건성과 성능을 입증하였다. 특히, 튜닝 파라미터 수가 증가하는 경우 일정 수준에서 성능 저하가 발생하였던 기존 방법론들 대비 성능 저하 없이 성능이 안정적으로 도출되는 실험에서 본 방법론의 장점이 나타났다.

다만, 객체탐지, 의미론적 분할과 같은 task에 대한 광범위한 검증이 필요됨을 본 논문에서 한계점으로 제시하였으며, 비교 방법론이 linear probing, full fine-tuning, VPT로 한정되어있었고, 또 여타 방법론들은 튜닝 파라미터의 비율이  제안방법론 보다 작게 설정한 실험 조건에 대해 의구심이 들었다.


[Q&A]
Q. 이미지 데이터(ImageNet)로 사전학습 후 비디오 데이터 (SSv2)에서 fine tuning후 action recognition을 수행하였을 때, full-fine tuning보다 성능이 훨씬 높게 나타난 이유?
A. full fine-tuning 방식은 전체의 파라미터를 학습 가능하게 만들어 기존에 이미지 데이터로 사전학습된 파라미터들이 비디오 데이터로 fine-tuning되는 과정에서 파라미터간 간섭이 일어났을 확률이 높아 비교적 불안정한 학습이 진행되었을 것으로 생각됩니다. 제안 방법론인 AdaptFormer의 경우 기존 사전학습된 파라미터들은 고정 시킨 후 병렬적으로 MLP layer에 대해 bottle neck 형태의 task specific한 파라미터들을 추가하였기에 파라미터간 간섭을 최소화 하여 더 높은 성능이 도출된 것으로 생각됩니다. 또한 이러한 성능 향상은 토큰 수가 많을 수 밖에없는 비디오 데이터에서 더욱 효과적으로 나타났을 것으로 생각됩니다.

Q. 전체 파라미터를 full fine-tuning 하는 학습 방식과 전체파라미터 + AdaptMLP 파라미터들을 모두 fine-tuning하는 방식을 비교하는 실험도 필요하지 않나요?
A. 전체 파라미터들 학습하면서 AdaptMLP 파라미터를 학습하는 것은 단순 가중치들이 더해지는 구조에서 AdaptMLP 레이어의 효과가 미비할 것으로 생각됩니다. AdaptMLP는 사전학습 파라미터들을 고정 후 task specific한 fine-tuning 파라미터들을 plug-and-play 방식으로 추가하여 파라미터 효율성을 향상시킨 방법론으로 단순 파라미터를 증가 시키는 실험으로는 효과성을 입증하기 어려울 것으로 판단됩니다.

Q. 전체 파라미터를 full fine-tuning 하는 학습 방식에서 파라미터 간의 간섭이 발생하는 것이 이해가 되지 않습니다.
우선 본 연구에서는 full-fine tuning을 수행하는 경우 기존의 사전학습된 파라미터들이 망각되는 문제점과 여러 task에 대해 fine-tuning을 수행할 경우 학습 가중치들에 대해  각각 별도의 파라미터를 할당하는 비효율성과 이 과정에서도 학습 파라미터들이 여러 task에 중첩되어 간섭이 발생하는 문제점을 강조하였습니다. 제안 방법론은 사전학습 파라미터를 고정 후 adapter형태의 소수의 추가 파라미터를 MLP layer에 추가하였고 여러 downstream task들에 대해 독립적인 파라미터를 가질 수 있기 때문에 파라미터 간섭을 최소화 할 수 있음을 강조하였습니다.

[녹화 영상 링크]
https://us06web.zoom.us/j/88672822358?pwd=BvqnivxmSgsHPsBXo8bpqyIikd0JvX.1

첨부파일

댓글목록

등록된 댓글이 없습니다.