[20260127 특별세미나] Optimisation of facility layout using reinforcement learning for semiconductor production > Bayesian Optimization (26y)

[20260127 특별세미나] Optimisation of facility layout using reinforcement l…

페이지 정보

작성자 김민재
댓글 0건 조회 95회 작성일 26-01-31 00:25

본문

[일시] 2026.01.27

[세미나 주제]
Optimisation of facility layout using reinforcement learning for semiconductor production

[발표자]
김민재

[요약]
본 발표에서는 반도체 Fab 내 대규모 설비 배치 문제(Facility Layout Problem, FLP)를 해결하기 위해 강화학습을 적용한 프레임워크를 소개하였다. 1,200개 이상의 설비와 복잡한 물류 경로, 구역 제약 조건이 존재하는 반도체 제조 환경은 기존의 수동 배치나 유전 알고리즘, Tabu Search와 같은 메타휴리스틱 방법으로는 연산 비용과 확장성 측면에서 한계가 있다. 이에 본 연구에서는 대규모 148 * 196 그리드 환경을 구축하고 심층 강화학습 알고리즘인 DDQN을 통해 최적의 배치 전략을 학습하는 방법론을 제안하였다.

핵심 방법론으로 설비의 위치, 베이 영역, 물류 경로 및 입구 지점 정보를 다중 채널의 그리드 상태로 정의하고, CNN 구조를 활용하여 공간적 패턴을 추출하였다. 특히 기존 DQN의 고질적인 문제인 가치 과대평가를 해결하기 위해 행동 선택(Local Network)과 가치 평가(Target Network)를 분리하는 DDQN 업데이트 규칙을 적용하여 학습의 안정성을 확보하였다. 보상 함수는 입고 지점과의 거리(D) 최소화와 공간 활용도(S) 최대화를 가중 결합하여 설계하였으며, Action Masking 기법을 통해 물리적 제약 조건을 위반하지 않는 유효한 행동만을 유도하였다. 실험 결과 제안된 시스템은 대규모 배치 문제에서 Tabu Search 대비 좋 솔루션 품질과 연산 안정성을 보였으며 NVIDIA Omniverse 플랫폼과의 연동을 통해 2D 학습 결과를 3D 디지털 트윈으로 시각화하고 검증할 수 있는 환경을 구축하였다.

[Q&A]

Q : reward를 보면 좌표와 설비 크기 정보만 활용하는데, 생산 효율성(속도, 생산량)이 반영되는 것이 맞나요? 단순히 빈 공간을 채우는 데 치중된 건가요?
A : 본 연구의 주된 목적은 복잡한 동적 공정 시뮬레이션을 수행하기보다는 제한된 공간 안에 물류 효율을 고려하여 설비를 가장 잘 배치하는 공간 최적화를 강화학습으로 해결하는 데 있습니다. 비싼 클린룸 공간을 남김없이 사용하면서도 물류 동선을 최소화하는 것이 프로그램의 핵심 계산 목적입니다. 보상 함수의 첫 번째 항인 입고 지점 근접성(D)은 물류 효율을 대변하며 설비를 입구 쪽으로 밀집 배치함으로써 자재 이동 거리를 단축시키고 결과적으로 물류 처리 속도를 간접적으로 향상시키는 효과를 거두고 있습니다.

Q : score를 왜 써야되고 production score 어떻게 매기는건가요?
A : 강화학습 에이전트가 가장 빠르고 안정적이며 정확하게 학습할 수 있는 환경을 만들기 위해서는 최적의 하이퍼파라미터를 찾는 것이 중요합니다. 여기서 최적화의 대상은 배치 결과물 자체가 아니라 배치를 수행하는 하이퍼파라미터입니다. 이를 위해 Grid Search를 활용하여 다양한 하이퍼파라미터 조합들을 체계적으로 탐색하는데 이때 어떤 조합이 가장 안정적이고 뛰어난 성과를 냈는지를 하나의 숫자로 판단할 필요가 있습니다. 이러한 목적으로 사용되는 것이 바로 Score입니다. Score는 하이퍼파라미터(학습 세팅)가 얼마나 잘 설정되었는지 확인하기 위해 Loss와 Reward를 결합하여 만든 별도의 평가지표입니다. 이를 통해 에이전트가 학습을 잘 수행할 수 있도록 최적의 하이퍼파라미터를 선정할 수 있습니다. 반면 Production Score는 배치가 완료된 후 오직 레이아웃의 품질인 Reward만 가지고 평가한 지표입니다. 모든 설비 배치가 끝난 뒤 에이전트가 획득한 최종 Reward의 합을 0~1 사이의 값으로 나타낸 것입니다. 그래서 에이전트가 학습 중에 Reward를 최대화하려고 노력한 결과물입니다.

Q : 3D 시뮬레이션을 쓰는 이유가 무엇인가요?
A : 강화학습 에이전트는 연산 효율성을 위해 공장을 2D 격자 구조로 파악하고 학습하지만, 실제 반도체 팹은 설비의 높이, 유지보수 공간, 상부 물류 경로 등 복잡한 3D 제약 조건을 가진 공간입니다. NVIDIA Omniverse를 활용한 3D 시뮬레이션은 2D에서 계산된 배치 결과가 실제 물리적 공간에서 설비 간의 간섭이나 충돌이 없는지 최종 검증하는 디지털 트윈 역할을 수행합니다. 또한 수치로만 존재하는 배치 결과를 시각화함으로써 현장 전문가가 실제 현장 요구사항을 직관적으로 검토하고 수정할 수 있는 환경을 제공하여 설계 리스크를 최소화하는 데 목적이 있습니다.

[관련 논문]
-Optimisation of facility layout using reinforcement learning for semiconductor production

[녹화영상]
https://us06web.zoom.us/rec/share/aUw784rNQE-Tyv4z5MHwVg2cmjRVvK8E1EqZkkejtyyJ6gE1rmcwxhDzwJsNl8Ck.74511QjN2sy4byps

첨부파일

[260127]_김민재_Optimisation of facility layout using reinforcement learning for semiconductor production.pdf (1.4M)
DATE : 2026-01-31 00:25:34

댓글목록

등록된 댓글이 없습니다.