MIT 6.S191 (2024): Google - Generative AI for Media
페이지 정보

본문
[일시] 2025.11.24
[세미나 주제] Generative AI for Media
[발표자] 김희지
[요약] 본 리뷰는 MIT Generative AI 강의를 기반으로 텍스트·이미지·비디오·오디오 생성 모델의 공통 구조를 한 흐름으로 정리하였다. 세미나에서는 Diffusion 모델이 텍스트 임베딩을 UNet 내부에 주입해 노이즈를 제거하는 방식으로 이미지를 생성하는 구조와, VQ-VAE, GAN 기반 토큰화를 통해 이미지를 정수 토큰 시퀀스로 변환해 Transformer가 GPT 방식으로 생성하는 Autoregressive 모델을 비교 설명하였다. 비디오 생성은 이를 시간축까지 확장해 3D Diffusion과 Temporal Super-Resolution으로 장면 일관성을 유지하는 방식을 다루었다. 오디오 생성에서는 SoundStream neural codec으로 오디오를 토큰으로 압축하고, MusicLM이 텍스트·오디오 임베딩을 대조학습으로 정렬해 음악을 생성하는 메커니즘을 이해하였다. 또한 SingSong은 허밍을 멜로디 단위로 변환해 음악 토큰으로 변환하는 구조로, 텍스트 기반 생성과 다른 입력 처리 방식을 보여준다. 마지막으로 RT-1, RT-2, SayCan 등을 통해 LLM이 행동 스킬을 자연어로 평가하고 affordance 모델과 결합해 로봇 행동을 결정하는 방식까지 살펴보며, 생성형 AI가 멀티모달 전체로 확장되는 구조적 흐름을 파악할 수 있었다.
[녹화 영상 링크] https://us06web.zoom.us/rec/share/LezW0tKXnO7cdRR2P356Q4muSJIFeIzgupBlTmFLB02muT-z-nzma1RzgUr0JL9v.3RTKj5AsebsUA2lx
[세미나 주제] Generative AI for Media
[발표자] 김희지
[요약] 본 리뷰는 MIT Generative AI 강의를 기반으로 텍스트·이미지·비디오·오디오 생성 모델의 공통 구조를 한 흐름으로 정리하였다. 세미나에서는 Diffusion 모델이 텍스트 임베딩을 UNet 내부에 주입해 노이즈를 제거하는 방식으로 이미지를 생성하는 구조와, VQ-VAE, GAN 기반 토큰화를 통해 이미지를 정수 토큰 시퀀스로 변환해 Transformer가 GPT 방식으로 생성하는 Autoregressive 모델을 비교 설명하였다. 비디오 생성은 이를 시간축까지 확장해 3D Diffusion과 Temporal Super-Resolution으로 장면 일관성을 유지하는 방식을 다루었다. 오디오 생성에서는 SoundStream neural codec으로 오디오를 토큰으로 압축하고, MusicLM이 텍스트·오디오 임베딩을 대조학습으로 정렬해 음악을 생성하는 메커니즘을 이해하였다. 또한 SingSong은 허밍을 멜로디 단위로 변환해 음악 토큰으로 변환하는 구조로, 텍스트 기반 생성과 다른 입력 처리 방식을 보여준다. 마지막으로 RT-1, RT-2, SayCan 등을 통해 LLM이 행동 스킬을 자연어로 평가하고 affordance 모델과 결합해 로봇 행동을 결정하는 방식까지 살펴보며, 생성형 AI가 멀티모달 전체로 확장되는 구조적 흐름을 파악할 수 있었다.
[녹화 영상 링크] https://us06web.zoom.us/rec/share/LezW0tKXnO7cdRR2P356Q4muSJIFeIzgupBlTmFLB02muT-z-nzma1RzgUr0JL9v.3RTKj5AsebsUA2lx
첨부파일
-
MIT 6.S191 2024 Google - Generative AI for Media.pdf (6.5M)
DATE : 2025-11-27 16:54:22
- 다음글MIT 6.S191 (2025): Deep Generative Modeling 25.11.17
댓글목록
등록된 댓글이 없습니다.