|
|
|
|
|
걷고 달릴 수 있는 사람이라면 ‘빠르게 걷기’쯤은 식은 죽 먹기다. 발을 얼마나 자주 떼고, 보폭을 어떻게 조절하는지 배우지 않아도 ‘감’으로 안다. 반면 피지컬 AI 로봇은 걷기나 전력 질주를 잘 배웠더라도 적당히 달리는 새로운 임무를 받으면 다리 각도나 힘 조절을 제대로 못 해 엉뚱한 동작을 하거나 멈출 수 있다. 훈련받지 않은 상황에 대한 적응력 부족이 피지컬 AI 기술의 한계로 꾸준히 지적돼 왔는데, 이를 해결할 수 있는 새로운 AI 메타 강화학습 기법이 등장했다. AI 스스로 새로운 임무를 상상해 예습하는 기술이다. UNIST 인공지능대학원 한승열 교수팀은 학습해본 적 없는 새로운 임무에도 적응할 수 있도록 인공지능을 훈련시키는 기법인 TAVT(Task-Aware Virtual Training)를 개발했다고 19일 밝혔다. 연구팀이 개발한 학습 기법은 AI 스스로 ‘가상의 임무’를 만들어 이를 미리 학습하게 하는 방식이다. 딥러닝 기반의 표현 학습 모듈과 생성 모듈로 구성돼 있다. 표현 학습 모듈이 서로 다른 임무 간의 유사도(거리)를 정량화해 임무 구조(latent representation)를 파악하면, 생성 모듈이 이를 조합해 새로운 가상의 임무를 만든다. 생성된 가상 임무는 원래 임무의 특징을 보존할 수 있도록 설계돼, 학습한 적 없는 상황에 대한 예습 효과가 있다. 제1저자인 김정모 연구원은 “기존 강화학습은 하나의 임무에서 최적의 정책을 익히도록 설계돼, 새로운 상황에서는 성능이 급격히 떨어진다. 다양한 임무를 경험하게 하는 메타강화학습 기법도 있지만, 훈련 범위를 벗어난 상황(Out-Of-Distribution)에서는 여전히 적응이 쉽지 않다”고 설명했다. 연구팀은 이 학습 기법을 치타, 개미, 2족 보행 등 다양한 로봇 시뮬레이션 환경에 적용해본 결과, 훈련하지 않은 임무에 대한 적응력이 향상됐음을 확인했다. 특히 치타 로봇 시뮬레이션(Cheetah-Vel-OOD) 실험에서는 TAVT 기법을 적용한 경우, 경험해 보지 못한 중간 속도(1.25, 1.75 m/s 등)에서도 목표 속도를 빠르게 파악해 안정적으로 주행을 이어갔다. 반면 기존 메타강화학습 기법을 적용한 로봇은 적응이 느리거나 넘어지는 일이 잦았다. 한승열 교수는 “이번 기법은 AI 에이전트의 임무 일반화 성능을 높일 수 있는 방식으로, 피지컬 AI 로봇이나 자율주행차·드론 등 다양한 상황에서 유연한 대응이 필수적인 분야에 폭넓게 활용될 수 있을 것”이라고 말했다. 이번 연구 결과는 세계 3대 인공지능 학회 중 하나인 2025 ICML(International Conference on Machine Learning)에 채택됐다. 2025 ICML은 지난 7월 13일부터 19일까지 캐나다 밴쿠버에서 열렸다. 연구 수행은 과학기술정보통신부와 정보통신기획평가원(IITP)의 ‘지역지능화혁신인재양성사업’, ‘사람중심 인공지능 핵심원천기술개발’, ‘인공지능대학원 지원(울산과학기술원)’, ‘연속 공간 강화학습의 수렴성 개선을 위한 정보 엔트로피 기반 탐험 기법 개발연구’ 등의 지원을 받아 이뤄졌다. (논문명: Task-Aware Virtual Training: Enhancing Generalization in Meta Reinforcement Learning for Out-of-Distribution Tasks ) |
|
|
|
[붙임] 연구결과 개요 |
|
1.연구배경 현실 세계의 인공지능 에이전트는 학습해본 환경과 전혀 다른 상황에도 빠르게 적응해야 한다. 예를 들어, 자율 드론이 바람의 세기나 방향이 바뀐 환경에서 비행하거나, 로봇이 예기치 못한 무게의 짐을 옮길 때도 안정적으로 동작해야 한다. 기존의 강화학습(Reinforcement Learning) 기법들은 주어진 학습 태스크 분포 안에서는 좋은 성능을 내지만, "분포 밖(Out-Of-Distribution, OOD)"에 속하는 새로운 태스크에는 적응 성능이 급격히 떨어지는 한계가 있다. 본 연구에서는 에이전트 스스로 “가상의 태스크”를 상상해보고 학습하면서, 아직 경험해보지 못한 새로운 태스크에도 대비할 수 있게 하는 태스크 인식 가상 태스크 학습(Task Aware Virtual Training, TAVT) 기법을 제안하였다.
2.연구내용 본 연구의 태스크 인식 가상 태스크 학습 구조는 태스크 간 거리를 학습하는 모듈, 가상의 태스크를 생성하여 학습하는 모듈, 두 모듈로 구성되며 모두 딥러닝 기술을 사용하였다. 먼저 태스크 거리 학습 모듈은 서로 다른 태스크 간의 ‘거리’를 계량화하여, 에이전트가 태스크들 간의 구조적 차이를 이해하도록 돕는다. 동일한 경험이 서로 다른 태스크에서 얼마나 다르게 전이되는지의 차이를 측정하여 두 태스크의 차이를 측정한다. 해당 학습 모듈은 태스크 추론 학습이 측정된 태스크 간의 거리를 반영할 수 있도록 학습하여 태스크 잠재변수가 태스크 구조에 따라 잘 정렬될 수 있도록 한다. 이 방법은 에이전트가 태스크의 구조를 이해하고 태스크들의 세세한 차이를 감지할 수 있도록 한다. 두 번째 모듈은 가상의 태스크를 생성하여 학습하는 모듈로, 실제 태스크에서 추출한 잠재 변수(latent variable)를 바탕으로 다양한 가상의 태스크을 만들어 보고, 그 경험을 토대로 정책과 태스크 추론 모델을 함께 학습한다. 해당 모듈에서는 최대한 실제와 같은 가상 태스크를 생성하기 위해 생성모델 알고리즘을 부가적으로 사용하였다. 그리고 생성된 가상태스크의 경험 샘플이 원본 가상 태스크의 정보를 보존할 수 있도록 하는 손실함수를 도입하였다. 이 방법은 에이전트가 가상의 태스크를 스스로 만들고 또 학습하게 하여 분포 밖 태스크에 대해서도 미리 대비 할 수 있도록 한다. 3.기대효과 본 연구를 통해 개발된 TAVT 기법은 훈련 단계에서 경험하지 못한 태스크에서도 높은 적응 성능을 유지할 수 있어, 실제 환경에서 예측하기 어려운 상황 변화에도 안정적으로 대응할 수 있게 한다. 특히, 가상 태스크를 상상하며 학습하는 과정을 통해 실제 시행착오 비용을 크게 줄이면서도 적은 데이터만으로도 빠르게 새로운 환경에 적응할 수 있는 정책을 획득할 수 있다. 이러한 일반화 능력의 향상은 자율 드론이나 로봇과 같은 자율 시스템뿐 아니라 건물 에너지 최적화, 산업 자동화 등 다양한 의사결정 문제에 폭넓게 적용할 수 있어, 실제 산업 및 서비스 현장에서의 활용 가능성을 한층 높여줄 것으로 기대된다. |
|
[붙임] 용어설명 |
|
1.강화학습(Reinforcement Learning) 강화학습은 인공지능이 하나의 환경에서 다양한 시행착오를 통해 보상을 얻고 누적 보상 합을 최대화 할 수 있는 정책을 학습하는 인공지능 기법이다. 시행착오를 통해 학습한다는 점에서 인간의 학습 방법과 유사한 방법으로 인지되며, 실제 로봇의 제어, 건물의 에너지 최적화 등 의사결정 문제에 많이 활용된다. 2.잠재변수(latent variable) 잠재변수는 복잡한 원시 데이터에서 어떤 특정 정보를 잘 담고있는 간단한 데이터를 뜻한다. 인공지능은 이 잠재변수를 통해 데이터를 이해해야 하기 때문에, 원시 데이터에서 필요한 정보만을 효과적으로 잠재변수로 추출할 수 있어야 한다. 예를 들어 이 연구에서는 시행착오 경험을 통해 로봇이 얼마나 빠른 속도로 달려야 하는지를 잠재변수로 나타내고, 잠재변수는 태스크의 정보(속도 정보)를 잘 담고있어야 한다.
|
|
[붙임] 그림설명 |
|
그림 1. 네 가지 시뮬레이션 환경에서의 태스크 분포 시각화 왼쪽부터 Cheetah-Vel-OOD(치타 주행 시뮬레이션), Walker-Mass-OOD(2족 보행자 질량 조절 시뮬레이션), Ant-Dir-4(4족 로봇 방향 전환), ML1-Reach(로봇 팔 목표 지점 도달) 환경에 해당한다. 각 환경은 속도, 질량, 이동 방향, 목표 위치 등 태스크 목적에 따라 1차원부터 3차원까지 서로 다른 잠재 구조를 갖는다. 파란색은 학습에 사용된 태스크(Train Tasks), 빨간색은 훈련 범위를 벗어난 분포 밖 태스크(OOD Tasks)를 나타낸다. 두 분포가 구조적으로 잘 이어져 있는 것을 통해, TAVT 기법이 보지 못한 태스크에 대해서도 효과적으로 구조를 파악하고 일반화할 수 있음을 확인할 수 있다. |
|
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |