데이터를 실시간으로 학습할 수 없는 상황에서 인공지능이 더 올바른 가치판단을 내릴 수 있게 하는 기술이 개발됐다.
인공지능대학원 한승열 교수팀은 오프라인 강화학습 환경에서 가치 함수의 신뢰성을 높일 수 있는 EPQ 기술을 개발했다. 이번 성과는 AI 및 머신러닝 분야의 3대 권위 학술대회인 뉴립스(NeurIPS) 2024에서 채택돼 발표됐으며, 주목받는 연구성과 (spotlight paper)로도 인정을 받았다.
오프라인 강화학습은 실제 환경에서 데이터 습득이 어려운 경우 사전에 수집된 데이터만을 활용해 최적의 정책을 학습하는 AI의 핵심 기능이다. 예상치 못한 돌발 변수가 발생하는 재난 현장에서 활약하는 드론이나 자율주행 등에서 꼭 필요하다.
오프라인 강화학습은 실제 데이터와 다른 분포를 가지는 상황에서도 안정적인 학습 성능을 유지하는 것이 중요한데, 기존 오프라인 강화학습 방법은 모든 상태에 균일한 패널티를 적용하는 과소 추정의 문제가 있었다. 패널티는 실시간 데이터 학습이 불가능해 데이터의 가치를 판단하지 못하는 상황에서 해당 데이터를 활용하지 않는 것을 말한다.
연구팀의 ‘EPQ’ 기술은 분포적 편차가 높은 상태에만 선택적으로 패널티를 부여한다. 이를 통해 모델이 오차를 효과적으로 감소시키고, 더 높은 정확도로 학습을 수행할 수 있도록 돕는다.
연구팀은 개발한 EPQ 기술로 AI가 망치로 못을 박는 것과 같은 과업을 수행하게 했다. 기존 방식은 무분별한 페널티 부여로 최적의 데이터 학습이 어려워 정답을 찾지 못한 반면, EPQ 기술이 적용된 경우, 성공적으로 과업을 수행했다.
한승열 교수는 “자율 주행, 로봇 제어, 스마트 제조와 같은 다양한 산업 분야에서 강화학습의 적용 가능성을 크게 확장한 연구”라고 설명했다.
연구 수행은 과학기술정보통신부(MSIT), 정보통신기획평가원(IITP), UNIST의 지원을 받아 이뤄졌다.
한편, 뉴립스는 ICML, ICLR과 더불어 세계 3대 AI 학회로 꼽힌다. 뉴립스 2024는 지난달 10일부터 15일까지 캐나다 벤쿠버에서 개최됐으며, 전세계에서 제출된 15,671편의 논문 중 4,500건만이 채택됐다.