[2025[0820 통합 세미나] Efficent Memory Management for Large Language Model Serving > Lab Seminar

[2025[0820 통합 세미나] Efficent Memory Management for Large Language Model…

페이지 정보

작성자 오수진
댓글 0건 조회 87회 작성일 25-08-21 16:21

본문

[일시]
2025.08.20.

[세미나 주제]
Efficent Memory Management for Large Language Model Serving

[발표자]
오수진

[요약]
이 발표자료는 대규모 언어모델(LLM) 서빙에서 메모리 관리와 스케줄링을 효율화하는 세 가지 핵심 시스템, 즉 vLLM(PagedAttention 기반 메모리 관리), NVIDIA Dynamo(프리필·디코드 분리와 계층적 캐시 관리), LLM-D(지능형 인퍼런스 스케줄링)를 중심으로 다룹니다. 먼저 vLLM은 KV 캐시를 블록 단위로 관리해 낭비를 줄이고, 프롬프트 공유·빔서치·병렬 샘플링 같은 시나리오에서 메모리를 효율적으로 사용하는 방법을 제시합니다. 이어서 NVIDIA Dynamo는 프리필과 디코드를 분리해 GPU 활용률을 극대화하고, 다계층 캐시 및 실시간 로드 기반 자원 조절로 지연시간을 줄이는 구조를 소개합니다. 또한 LLM-D는 게이트웨이 API 확장을 기반으로, SLA(서비스 수준 목표)에 맞춰 요청을 적절한 Pod에 라우팅하고, 프리필·디코드 분산과 전문가 병렬화를 지원하는 인퍼런스 스케줄러를 설명합니다. 마지막으로 결론에서는 단순 캐시 히트율이나 큐 크기 기반의 스케일링을 넘어, 향후 강화학습(PPO 등)을 통한 지능적 스케줄링과 SLA 기반 자동 최적화 연구 방향을 제안합니다.

[관련 논문]
- Efficient Memory Management for Large Language Model Serving with PagedAttention

[녹화 영상 링크]
https://us06web.zoom.us/rec/share/ODowBaTlbPKkSoXAgsu_sRlsz9iGJNhSU6TbUCPre-_aZiiMNzDUZyguIynKgfAZ.ebz2LWk-s6iShXue

첨부파일

Efficent Memory Management for Large Language Model Serving_오수진.pdf (2.3M)
DATE : 2025-08-21 17:12:01

이전글[20250820 통합 세미나] Building Bridges: How Multimodal LLMs Connect Visual and Textual Understanding 25.08.21
다음글[20250730 통합 세미나] Knowledge Distillation in Computer Vision 25.08.05

댓글목록

등록된 댓글이 없습니다.