[250821 특별 세미나] Prefix-Tunning: Optimizing Continuous Prompts for Gene…
페이지 정보

본문
[일시] 2025.08.21.
[리뷰 논문] Prefix-Tunning: Optimizing Continuous Prompts for Generation
[요약]
기존의 Fine-tuning 방식은 모든 파라미터를 학습해야 해서 비효율적인 반면, Prefix-tuning은 소수의 연속 벡터(prefix)만 학습하여 효율성을 크게 높입니다. 실험에서는 Table-to-Text와 Summarization 과제에서 Prefix-tuning이 Fine-tuning과 비슷하거나, 특히 데이터가 적을 때 더 우수한 성능을 보였습니다. 또한 Prefix 길이, 초기화 전략 등에 따라 성능 차이가 발생하며, 적절한 길이와 단어 기반 초기화가 좋은 결과를 이끌었습니다. 결과적으로 Prefix-tuning은 파라미터 효율성과 일반화 성능 모두에서 장점을 가진 방법으로 제시되었습니다.
[Q&A]
- Inifx 랑 prefix 차이가 정확히 뭔가요?
A) 논문에서는 autoregressive 모델(GPT-2)에서 [x; INFIX; y] 형태로 Infix-tuning을 적용하는 부분만 다루고 있습니다. 이 경우 Infix는 출력 y 쪽에만 영향을 미치며, 성능은 Prefix보다 낮게 나타났습니다. 반면 BART와 같은 encoder–decoder 모델에서는 Infix-tuning 사용에 대한 언급이나 실험이 없고, 대신 인코더와 디코더 앞에 prefix를 붙이는 방식만 설명되어 있습니다.
- 의미 없는 단어들을 프리픽스로 적었는데 성능이 좋아진 이유가 뭔가요?
A) Random 벡터는 모델이 사전 학습 과정에서 본 적 없는 낯선 신호라 학습이 불안정해집니다. 반면 아무 단어라도 실제 단어의 벡터는 이미 언어 모델이 학습한 의미 공간(embedding space) 안에 위치하기 때문에 모델이 더 쉽게 이해하고 활용할 수 있습니다. 그래서 단순한 단어 벡터로 초기화하는 것만으로도 random 초기화보다 안정적이고 성능이 더 잘 나오는 요인이 됩니다.
-
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/ke2U9BaLEM4TgxaQl-qoXoPb4drFhhVJ1AmNxSeLV-ybhHikCJDd-RypJTf41cSv.-fQFrTDrT_wyEPrm
[리뷰 논문] Prefix-Tunning: Optimizing Continuous Prompts for Generation
[요약]
기존의 Fine-tuning 방식은 모든 파라미터를 학습해야 해서 비효율적인 반면, Prefix-tuning은 소수의 연속 벡터(prefix)만 학습하여 효율성을 크게 높입니다. 실험에서는 Table-to-Text와 Summarization 과제에서 Prefix-tuning이 Fine-tuning과 비슷하거나, 특히 데이터가 적을 때 더 우수한 성능을 보였습니다. 또한 Prefix 길이, 초기화 전략 등에 따라 성능 차이가 발생하며, 적절한 길이와 단어 기반 초기화가 좋은 결과를 이끌었습니다. 결과적으로 Prefix-tuning은 파라미터 효율성과 일반화 성능 모두에서 장점을 가진 방법으로 제시되었습니다.
[Q&A]
- Inifx 랑 prefix 차이가 정확히 뭔가요?
A) 논문에서는 autoregressive 모델(GPT-2)에서 [x; INFIX; y] 형태로 Infix-tuning을 적용하는 부분만 다루고 있습니다. 이 경우 Infix는 출력 y 쪽에만 영향을 미치며, 성능은 Prefix보다 낮게 나타났습니다. 반면 BART와 같은 encoder–decoder 모델에서는 Infix-tuning 사용에 대한 언급이나 실험이 없고, 대신 인코더와 디코더 앞에 prefix를 붙이는 방식만 설명되어 있습니다.
- 의미 없는 단어들을 프리픽스로 적었는데 성능이 좋아진 이유가 뭔가요?
A) Random 벡터는 모델이 사전 학습 과정에서 본 적 없는 낯선 신호라 학습이 불안정해집니다. 반면 아무 단어라도 실제 단어의 벡터는 이미 언어 모델이 학습한 의미 공간(embedding space) 안에 위치하기 때문에 모델이 더 쉽게 이해하고 활용할 수 있습니다. 그래서 단순한 단어 벡터로 초기화하는 것만으로도 random 초기화보다 안정적이고 성능이 더 잘 나오는 요인이 됩니다.
-
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/ke2U9BaLEM4TgxaQl-qoXoPb4drFhhVJ1AmNxSeLV-ybhHikCJDd-RypJTf41cSv.-fQFrTDrT_wyEPrm
첨부파일
-
Prefix-Tunning-오수진.pdf (1.6M)
DATE : 2025-08-21 17:42:48
- 다음글[250821 특별 세미나] Neural Prompt Search 25.08.21
댓글목록
등록된 댓글이 없습니다.