|
|
|
|
|
챗GPT에 지브리풍 이미지를 그려 달라고 입력하면, 실제 그림을 그리는 주체는 챗GPT가 아닌 달리(DALL·E)라는 확산모델이다. 이 같은 확산모델은 고품질 이미지를 만들어내지만, 손가락이 3개거나 얼굴이 뒤틀린 그림이 나오기도 하고, 수십억 개의 파라미터를 가진 탓에 스마트폰처럼 계산 자원이 제한된 기기에서는 직접 실행하기 어렵다. 이런 한계를 해결할 수 있는 생성형 AI 설계 원리를 국내 연구진이 제시했다. UNIST 인공지능대학원 윤성환·유재준 교수연구팀은 확산모델을 학습시킬 때 손실함수의 평평한 최소점(flat minima)에 도달하도록 설계하면, 모델의 강건성(robustness)과 일반화 성능(generalization)을 동시에 높일 수 있다는 사실을 이론과 실험으로 입증했다고 22일 밝혔다. 확산모델은 고품질 이미지를 만들 수 있어 이미 챗GPT의 DALL·E와 스테이블 디퓨전(Stable Diffusion) 같은 이미지 생성 AI에 활용되고 있다. 지브리풍, 고흐의 화풍으로 내 사진을 바꿀 수 있고, 나만의 캐릭터를 4컷 만화로 만들어 주거나, 상상 속 풍경을 현실적인 사진처럼 그려내기도 한다. 하지만 이 같은 확산모델은 짧은 생성 과정에서 오차가 누적되거나, 모델을 소형 기기에 옮기기 위해 압축하는 과정에서 발생하는 양자화 오류, 입력에 미세한 교란을 심어 출력을 흔드는 적대적 공격(adversarial attack) 등에 취약한 ‘강건성(robustness)’ 부족 문제가 있다. 연구팀은 강건성 문제가 AI의 근본적인 일반화 성능 부족에서 비롯된다고 진단했다. 일반화 성능은 학습에 쓰지 않은 새로운 데이터나 환경에서도 모델이 안정적으로 작동하는 능력을 말한다. 연구팀은 문제의 해법을 손실 함수의 ‘최저점 골짜기 모양’에서 찾았다. 손실 함수는 AI가 예측한 결과와 정답의 차이를 수치로 나타낸 것으로, 값이 낮을수록 학습이 잘된 상태를 뜻한다. AI는 학습 과정에서 손실 값을 줄이는 방향으로 나아가는데, 이 최저값 지점이 좁고 가파르면 작은 흔들림에도 성능이 쉽게 무너지고, 반대로 넓고 평평한 최소점에 도달하면 새로운 상황이나 방해에도 성능이 안정적으로 유지되는 것이다. 평탄한 최소점을 찾는 학습 알고리즘 중에서는 SAM(Sharpness-Aware Minimization)이 가장 효과적인 것으로 드러났다. SAM을 적용한 확산모델은 짧은 생성 과정에서도 오차 누적의 영향을 덜 받았고, 소형 기기 이전을 위한 압축(양자화)에서도 품질 저하가 작았다. 특히 기존 모델보다 7배 강한 적대적 공격에도 성능을 유지하며 확산모델의 강건성을 크게 높였다. 원래는 반복된 생성으로 인한 오차 누적, 경량화 시 생기는 양자화(quantization) 오류, 적대적 공격 취약과 같은 확산 모델의 강건성은 각각 따로 연구되어 왔으나, 연구팀은 ‘평평한 최소점’이라는 하나의 원리로 이 문제점들을 모두 해결할 수 있음을 이번 연구로 입증했다고 설명했다. 연구팀은 “단순히 이미지 품질을 높이는 것을 넘어, 다양한 산업과 실제 환경에서도 믿고 쓸 수 있는 생성형 AI의 설계 원리를 제시했다는 점에서 의미가 크다”며 “챗GPT 같은 대규모 생성 모델을 소량 데이터만으로도 안정적으로 학습하게 하는 기반이 될 것”이라고 말했다. 이번 연구는 UNIST 이태환, 서경국 연구원이 제1저자로 참여했다. 연구 결과는 2025 ICCV(International Conference on Computer Vision)에 채택됐다. ICCV는 인공지능 분야 권위 학회 중 하나로, 올해 학회는 미국 하와이에서 지난 19일 개막해, 오는 23일까지 5일간 열린다. 연구 수행은 과학기술정보통신부 한국연구재단, 정보통신기획평가원, 보건복지부, 울산과학기술원의 지원을 받아 이뤄졌다. (논문명: Understanding Flatness in Generative Models: Its Role and Benefits) |
|
|
|
[붙임] 연구결과 개요 |
|
1.연구배경 최근 확산 모델(Diffusion models)은 연속적인 노이즈 제거 과정을 통해 고품질의 이미지를 생성하는 능력으로 큰 주목받고 있다. 그러나 이러한 생성 과정은 노이즈 예측 오차의 누적 (exposure bias problem), 양자화에 따른 성능 저하(quantization error)등 다양한 실용적 문제에 취약할 수 있다. 따라서, 확산 모델이 실제 환경에서 안정적이고 범용적으로 작동하기 위해서는 우수한 일반화 성능과 강건성을 갖추는 것이 중요하다. 일반적으로 뉴럴 네트워크의 일반화(generalization)란 학습에 사용되지 않은 새로운 입력에 대해서도 안정적인 예측 성능을 발휘하는 능력을 의미한다. 지도학습에서는 평탄한 최소점이 모델의 일반화 성능을 향상시키고 입력 분포 변화에 강건하다는 것이 다양한 연구를 통해 밝혀져 있다. 이는 지도학습이 이미지를 입력으로 받아 정답 라벨을 예측하는 단순한 문제이므로, 평탄함의 효과가 직관적으로 이해되기 때문이다. 하지만, 생성 모델은 다르다. 이들은 무작위 노이즈를 입력으로 받아 이미지를 생성하는 구조를 갖기 때문에, 단순히 지도학습의 관점을 적용하기 어렵다. 만약 같은 원리로 생성 모델이 평탄한 최소점에 도달한 결과, 다양한 입력 변화에 대해 거의 동일한 이미지를 출력한다면, 이는 오히려 샘플 다양성 저하로 이어져 일반화 성능이 향상됐다고 말하기 어렵다. 그렇다면 실제로 생성 모델에서는 평탄한 손실 지형이 일반화 성능에 어떤 영향을 미치는가? 본 연구에서는 확산 모델의 관점에서 평탄한 최소점이 모델의 일반화 성능과 강건성에 어떤 영향을 미치는지 수학적으로 해석하고, 이를 정량적 실험을 통해 검증하는 것을 목표로 한다. 구체적으로, 평탄한 최소점에 도달한 확산 모델은 단순히 생성 품질이 향상될 뿐만 아니라 오차 누적, 양자화 오류 등 다양한 입력 변화에 훨씬 견고하다는 것을 실험적으로 확인하였다. 이를 통해, 본 연구는 실제 환경에서도 안정적으로 동작할 수 있는 견고한 확산 모델 설계의 방향성을 제시한다. 2.연구내용 본 연구팀은 완만한 최소점(flat minima) 이 생성 모델, 특히 확산 모델에서 어떤 영향을 가지는지를 체계적으로 분석하였다. 완만한 최소점은 기존의 분류 작업(classification task) 에서 모델의 일반화 성능 을 높이는 것으로 잘 알려져 있으나, 생성 모델에서는 그 효과와 역할이 충분히 연구되지 않았다. 이를 규명하기 위해, 연구팀은 분류 작업에서 평탄한 최소점을 찾는 데 주로 사용되는 알고리즘들인 SWA(Stochastic Weight Averaging), EMA(Exponential Moving Average), 그리고 SAM(Sharpness-Aware Minimization) 을 확산 모델에 적용해 비교 분석하였다. 확산 모델은 학습 과정에서 다양한 수준의 가우시안 노이즈(Gaussian noise) 가 입력되며, 이는 모델이 이미 어느 정도 평탄한 손실 지형을 학습하게 만든다. 실제로, SWA나 EMA를 적용했을 때에도 일정 수준의 평탄화 효과가 나타났다. 하지만, SAM은 평탄화 정도를 명시적으로 조절할 수 있고, 주어진 데이터 분포를 포함한 섭동된 데이터 분포에 대해 학습을 하기 때문에, 일반화 성능을 높임으로써 이미지 샘플링 단계에서 기존 방법보다 노이즈 예측 오차의 누적에 강건한 성능을 보인다. 또한, 연구팀은 이론적 분석을 통해, 평탄한 손실 지형이 모델의 파라미터 변화에 덜 민감하고, 잠재 분포(latent distribution)의 변화에 더 강건하다는 것을 보였다. 즉, 작은 파라미터 변화나 노이즈로 인한 입력 차이가 모델의 출력에 미치는 영향을 줄여주는 것이다. 실험 결과, 평탄한 손실 지형을 가진 모델은 다음과 같은 다양한 실용적 문제를 효과적으로 완화할 수 있음이 확인되었다. 3.기대효과 본 연구는 확산 모델의 일반화에 대한 새로운 이론적 기반과 접근법을 제안하였다. 이는 예측 오차 누적, 양자화 오류 외에도 학습 데이터 암기(memorization), 적대적 공격(adversarial attack) 등 다양한 실세계 문제들을 효과적으로 완화할 수 있는 가능성을 보여준다. 또한, 본 연구에서 제안한 이론은 GPT, Stable Diffusion, SoRA과 같은 대규모 생성 모델들을 소량의 데이터로도 일반화할 수 있는 이론적 토대를 제공하며, 이를 통해 우수한 생성 능력과 일반화 성능을 갖는 거대 모델을 효과적으로 학습할 수 있을 것으로 기대된다.
|
|
[붙임]용어설명 |
|
1.확산 모델 (Diffusion models) 생성 모델의 한 분류로써, 무작위 노이즈로부터 점차 노이즈를 제거해가며 결국 깔끔한 이미지가 생성되도록 하는 방식이다. 학습 이미지에 사전 정의된 노이즈를 삽입한 뒤, 제거해야하는 노이즈의 양을 예측하는 방향으로 학습되며, 실제 생성 과정에서는 무작위 노이즈를 입력으로, 정해진 스텝 수만큼 노이즈 제거 과정을 수행한다. 2.예측 오차 누적 (Exposure bias problem) 확산 모델의 불완정성으로 인해 모델의 예측 오차가 발생한다. 이는 순차적 노이즈 제거 과정에서 점차 누적되어 예측 오자를 심화하고 최종 출력 이미지의 품질에도 크게 영향을 미친다. 3.양자화 오류 (Quantization error) 양자화는 32bit로 표현되는 네트워크를 16, 8bit 혹은 그 이하로 낮추는 기법이다. 이는 연산량 및 메모리를 감소시켜 효율적인 GPU 모델의 불완정성으로 인해 모델의 예측 오차가 발생한다. 이는 순차적 노이즈 제거 과정에서 점차 누적되어 예측 오자를 심화하고 최종 출력 이미지의 품질에도 크게 영향을 미친다.
|
|
[붙임] 그림설명 |
|
그림1. 손실 함수의 평평한 최소점(Flat Minima)과 강건성(Robustness)의 관계를 수학적으로 증명하는 과정 왼쪽은 인공지능 학습 과정에서 손실 함수가 완만한 골짜기(평평한 최소점, Δ-flat minima)에 도달한 상태를 나타낸 것이다.연구팀은 이러한 평탄한 손실 구조가 모델이 데이터 분포의 변화를 얼마나 견디는지를 결정한다는 점을 수학적으로 증명했다(Theorem 1, 2).즉, 손실 함수가 평평할수록(Δ가 클수록) 데이터 분포가 달라져도 모델이 안정적으로 동작하는 강건성(robustness) 과 훈련 데이터에 국한되지 않는 일반화 성능(generalization) 이 함께 향상된다는 의미다.
그림2. SAM 학습 알고리즘의 강건성 평가 가로축(Norm of Perturbation)은 입력 데이터에 가해진 교란(perturbation)의 크기를, 세로축(Loss) 은 그에 따라 증가한 손실값. 교란의 크기가 커질수록 모델의 출력이 얼마나 불안정해지는지를 나타내는 지표로,곡선이 급격히 상승할수록 모델이 외부 변화에 취약하다는 뜻이다. 기존 학습 방식(ADM, IP, EMA, SWA)은 입력 교란이 커지면 손실이 빠르게 증가했지만, SAM(Sharpness-Aware Minimization)을 적용한 모델(자주색)은 손실 증가 폭이 가장 완만하게 나타났다. SAM이 손실 함수의 평평한 최소점(flat minima) 을 찾아내어, 입력 교란이나 잡음이 커져도 성능이 크게 흔들리지 않는 높은 강건성(robustness) 을 확보했음을 보여주는 결과다. |
|
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |