Press release

2025. 04. 21 (월) 부터 보도해 주시기 바랍니다.

“경험 없어도 척척”... AI 강화학습 기법 개발

UNIST 윤성환 교수팀, 돌발 상황에도 안정적인 성능 유지하는 강화학습 기법 개발
로보틱스, 자율주행 등 분야 활용… 3대 인공지능학회 ICLR 구두 발표 논문 선정

낯선 상황에서도 스스로 올바른 판단을 내리는 인공지능 기술이 개발됐다. 자율주행차가 눈길을 만나거나, 로봇이 운반하던 상자의 무게가 갑자기 바뀐 상황에서 AI의 안전성과 신뢰성을 높일 수 있을 것으로 기대된다.

UNIST 인공지능대학원 윤성환 교수팀은 환경 변화에도 성능 저하 없이 안정적으로 작동하는 강화학습 기법을 개발해 세계 3대 인공지능 학회인 ICLR의 구두 발표 논문으로 채택됐다. 전체 11,672편의 제출 논문 중 2% 이내인 단 207편 만이 구두 발표 기회를 얻었다.

강화학습은 정답을 미리 알려주는 지도학습과 달리, AI가 시행착오를 통해 얻는 보상을 최대화함으로써 문제해결 전략인 ‘정책’을 찾아간다는 점에서 더 인간에 가까운 학습방식이다. 하지만 기존 강화학습은 학습하지 않은 낯선 환경에서는 성능이 급격히 떨어지는 한계가 있다.

연구팀은 누적 보상의 민감도를 낮추는 학습법을 제안했다. 행동 변화에 따른 누적 보상 값의 변화가 지나치게 커지지 않도록 정책 파라미터 공간에서 누적보상의 곡면을 평탄하게 만드는 학습 전략이다. 기존 방식은 자율주행차가 눈길에서 감속 타이밍을 살짝 놓치면 큰 보상 손실로 이어져 전체 성능이 무너졌지만, 제안된 방식은 정책이 조금 바뀌어도 성능이 일정하게 유지된다.

실제 로봇의 마찰 조건이나 무게 등 물리적 요소를 변화시킨 상황에서, 새롭게 제안된 학습 기법은 평균 보상 유지율이 80~90%에 달하며 높은 수준의 안정성과 강인함을 입증했다. 반면, 기존의 학습법은 동일한 조건에서 평균 보상이 절반 이하로 감소하는 등 성능 유지에 한계를 드러냈다.

제1저자인 이현규 연구원은 “강화학습 파라미터 공간에서 누적보상의 민감도를 낮추기 위해 지도학습 분야에서 사용되던 SAM(Sharpness-Aware Minimization) 기법을 차용해 이 같은 학습법을 개발했다.”며 “효과적이면서도 적용이 쉬운 방식”이라고 설명했다.

지도학습에서는 AI모델이 정답에서 벗어난 정도를 계산하는 ‘손실함수’를 기준으로 학습이 이뤄지는데, SAM은 이 손실이 갑자기 크게 튀지 않도록 완만하고 평평한 구간(flat minima)을 찾는 방식이다. 연구팀은 이 개념을 강화학습에 맞게 확장해, 손실 대신 누적 보상이 급격히 변하지 않도록 학습 경로를 조정했다.

윤성환 교수는 “높은 수준의 일반화 성능을 갖는 강화학습 모델이 필요한 로보틱스, 자율주행 등에 활용될 것”이라고 기대했다.

한편, ICLR(International Conference on Learning Representations)은 ICML, Neurips와 더불어 세계 3대 AI 학회로 꼽힌다. ICLR 2025는 4월 24일부터 28일까지 싱가포르에서 개최되며, 전 세계에서 제출된 11,672편의 논문 중에서 3,646편이 채택됐다.

연구 수행은 정보통신기획평가원, 한국연구재단, UNIST의 지원을 받아 이뤄졌다.

(논문명: Flat Reward in Policy Parameter Space Implies Robust Reinforcement Learning)

자료문의

대외협력팀: 서진혁 팀장, 양윤정 담당 (052)217-1227

인공지능대학원: 윤성환 교수(052) 217-2204

  • [연구그림] 로봇 팔을 치는 등의 행동 노이즈를 추가 했을 때의 성능 비교
  • [연구그림] 무게, 마찰 계수가 변화한 환경에서의 성능 비교
  • [연구그림] 누적보상함수의 3D 시각화 그래프
 

[붙임] 연구결과 개요

 

1.연구배경

인공지능의 학습 방법중의 하나인 강화학습은 사람이 학습하는 방식과 유사한 학습 방식을 가지고 있어 순차적 의사결정 문제 등에 많이 활용되고 있다. 강화학습은 보상을 통해 학습하는 방식으로 작동하는데, 특정 환경 내에서 경험한 시행착오를 통해 보상이 큰 행동을 강화하는 방식으로 학습한다. 강화학습 알고리즘은 특히 로보틱스 분야, 자율주행 등의 분야에서 활발히 연구되어 적용되고 있지만, 학습했던 환경에서 조금의 변화가 생기거나 학습 시에 경험해보지 않았던 행동을 하게 되면 성능이 크게 저하되는 제한점이 존재한다. 인공지능 모델이 모든 상황을 경험할 수 없다는 점을 고려하였을 때 해당 제한점은 치명적이다.

이를 극복하기 위해 강인한 강화학습(Robust Reinforcement Learning)이라는 주제로 연구가 활발히 진행되었다. 강인한 강화학습은 변화에 강인한 강화학습 알고리즘을 연구하는 분야로, 환경에 주요 요소인 행동(action), 전이확률(transition probability)1), 보상함수(reward function)2)가 변하더라도 성능저하가 크게 일어나지 않도록 학습하는 방식을 연구한다. 하지만, 현재까지의 강인한 강화학습 분야는 수학적 연산의 복잡도가 높으며, 규모가 큰 상황에서의 성능이 보장되지 못하는 제한점이 있다.

 

2.연구내용

본 연구팀은 SAM(Sharpness-Aware-Minimization)3) 방식이 지도학습 분야에서 인공지능 모델의 일반화 성능을 향상시키는 방법으로 활발히 연구되고 있다는 점에 착안하여, 강화학습에도 해당 방식을 적용함으로써 강인한 강화학습 모델을 구현하고자 하였다. 손실함수의 완만한 최소(Flat minima)지점을 찾는 지도학습과 달리, 누적보상4)의 완만한 최대(Flat maxima)를 찾는 방식으로 학습하여 인공지능 모델의 파라미터에 변화가 있더라도 누적보상이 크게 변하지 않는 결과를 확인하였다. 또 그것이 강화학습 에이전트가 수행한 행동에 변화가 있더라도 누적보상이 크게 변하지 않는 결과로 이어짐을 수학적으로 전개하여, SAM을 적용한 강화학습 방식이 강인한 강화학습 분야의 행동의 강인함(action robustness)으로 연결됨을 도출하였다. 구체적으로, 로봇이 팔을 뻗으려할 때 로봇을 팔을 치는 행동에 노이즈를 추가한 실험에서, 기존 방식 대비 월등히 높은 평균 보상 유지율을 보여 행동의 강인함(action robustness)을 입증하였다(그림1). 로봇의 무게나 마찰 계수 등 물리적 환경 요소를 변화시킨 실험에서는 환경 변화에 따른 성능 저하가 미미하여 전이확률의 강인함(transition probability robustness)이 뛰어남을 확인(그림2)하였다. 또한 보상함수 자체에 노이즈를 추가해 보상이 불확실해지는 상황에서도 성능 감소폭이 기존 방식보다 훨씬 적어 보상함수의 강인함(reward function robustness)까지 관측되었다. 이 같은 결과는 제안된 강화학습 방식이 기존 알고리즘보다 다양한 환경 변화에도 더욱 강인하게 대응할 수 있음을 명확히 보여준다.

3.기대효과

강화학습 분야 자체와 더불어 강화학습의 일반화 성능을 향상시키는 강인한 강화학습 분야는 활발히 연구되고 있는 분야이다. 본 연구는 SAM 방식을 강화학습에 적용하여 그것을 이론적으로 수식화하여 행동의 강인함(action robustness)과 연결하였다는 점에서 의의가 있으며, 여러 실험을 통해 해당 기법이 행동(action), 전이확률(transition probability), 보상함수(reward function)이 변하더라도 좋은 성능을 유지한다는 것을 보였다. 이는 환경 변화에 강인한 강화학습 분야에 새로운 발전 방향을 제시하였으며, 실체계에 적용될 수 있는 정도의 일반화 성능이 높은 강화학습에 활용될 것으로 기대된다.

 

[붙임] 용어설명

 

1.전이확률 (Transition Probability)

전이확률은 인공지능이 어떤 상태에서 특정 행동을 했을 때, 다음 상태로 얼마나 자주(또는 어느 확률로) 바뀌는지를 나타내는 수치다. 예를 들어, 로봇이 앞으로 걷는 행동을 했을 때 평지에서는 그대로 전진할 가능성이 높지만, 눈길이나 경사진 곳에서는 미끄러지거나 다른 방향으로 이동할 수도 있다. 이처럼 실제 환경에서는 작은 변화만 있어도 상태 변화의 양상이 바뀌게 되며, 이것이 바로 전이확률이 달라지는 상황이다. 강화학습에서는 학습한 전이확률에 맞춰 AI가 행동을 익히기 때문에, 환경이 바뀌어 전이확률이 달라지면 성능이 급격히 떨어질 수 있다. 따라서 전이확률의 변화에도 성능이 무너지지 않도록 하는 것은, 강인한 AI 구현의 핵심 요소 중 하나다.

2.보상함수(Reward Function)

인공지능이 특정 행동을 했을 때, 그 행동이 얼마나 좋았는지를 점수로 나타내 주는 함수다. 예를 들어 로봇이 앞으로 걷기 동작을 성공적으로 수행하면 높은 점수(보상)를 받고, 넘어지면 낮은 점수(또는 벌점)를 받도록 설계할 수 있다. 인공지능은 이 보상 점수가 높아지는 방향으로 스스로 행동을 배우고 개선한다. 본 연구에서는 이런 보상함수에 변화가 있더라도 성능이 크게 떨어지지 않고 일정한 점수를 유지하도록 학습시켜, 환경이 바뀌더라도 안정적인 성능을 유지할 수 있게 했다.

3.SAM(Sharpness Aware Minimization)

인공지능 모델의 최적화 기법으로, 손실함수가 급격히(Sharp) 변하지 않는 방향으로 학습하여 모델의 일반화 성능을 높이는 특징이 있다. 지도 학습에서 주로 쓰인다.

4.누적보상(Return)

행동이 이루어진 전체 과정에서 상태의 전이가 일어나며 주어진 보상의 누적. 강화학습에서 인공지능이 행동을 선택하고 실행하는 전 과정에서 받은 보상을 합친 값이다. 인공지능은 이 누적 보상을 최대화하는 방향으로 행동을 배우게 된다.

 

[붙임] 그림설명

그림 1. 로봇 팔을 치는 등의 행동 노이즈를 추가 했을 때의 성능 비교(SAM+PPO : 주황색선)

고안한 강화학습 방식(SAM+PPO)은 학습시에 경험했던 행동(가로축 0.0 부분)에서 변화가 커질수록(가로축 방향) 성능(세로축)이 줄어드는 정도가 다른 기존 알고리즘보다 적다.

그림 2. 무게, 마찰 계수가 변화한 환경에서의 성능 비교(SAM+PPO : 가장 오른쪽 그래프)

고안한 강화학습 방식(SAM+PPO)은 학습했던 환경(가로, 세로축의 1.0부분)에서 변화가 커질수록 성능(노란색으로부터의 색변화)이 줄어드는 정도가 다른 기존 알고리즘보다 적다.

그림 3. 누적보상함수의 3D시각화 그래프(SAM+PPO : 왼쪽 그래프, PPO : 오른쪽 그래프)

고안한 방식(SAM+PPO)으로 학습한 강화학습 모델의 누적 보상함수를 3D시각화해보면 기존 방식(PPO)으로 학습한 강화학습 모델보다 평평한 형태를 띄고 있으며, 이는 해당 인공지능 모델이 모델 파라미터 변화에 강인하다는 것을 보여준다.