|
|
|
“일본팀 전부 꺾고 우승했을 땐 정말 짜릿했어요. 우리가 만든 ‘인공지능(AI) 컬링 프로그램’에 대한 자신감도 생겼고요. 앞으로 컬링 발전에 기여하는 기술이 됐으면 좋겠습니다.” UNIST(총장 정무영) 전기전자컴퓨터공학부의 최재식 교수와 김솔아, 이교운 대학원생이 개발한 AI 컬링 프로그램이 일본에서 열린 ‘디지털 컬링 대회’에서 우승했다. 디지털 컬링 대회는 AI 프로그램이 컴퓨터 공간에서 컬링 경기를 치르는 게임이다. 이 대회는 일본에서 열리는 ‘게임 인공지능 토너먼트(Game AI Tournaments@UEC, GAT)’의 한 종목으로 매년 3월 개최된다. 올해 대회에는 최재식 교수팀과 일본팀 5곳이 참가했다. 최 교수팀은 7승 3패로 공동 1위에 올랐고, 플레이오프 게임에서 2승을 추가해 최종 1위에 올랐다. 김솔아 학생은 “플레이오프 게임에서 승부를 벌인 3개 팀이 승률이 높기로 유명한 AI 컬링 프로그램”이라며 “일본보다 늦게 개발하기 시작한 AI 프로그램이지만 성능을 인정받아 뿌듯하다”고 소감을 말했다. 컬링은 상대를 파악하고 복잡한 전략을 세워 정교하게 수행하는 경기라 ‘빙판 위의 체스’라고도 불린다. 최적의 전략을 세워야 한다는 점에서는 바둑과 유사한데, 실제로 전략을 세우는 건 훨씬 복잡하다. 빙판 위 스톤(stone)이 위치할 경우의 수가 무한대에 가깝고, 스톤 충돌이나 빙질에 따른 불확실성, 경기수행능력 등 변수가 다양해서다. 최 교수팀은 AI 컬링 프로그램에 알파고(AlphaGo)의 자가학습 딥 러닝(Deep Learning) 기술과 연속공간을 효과적으로 탐색하는 커널 회귀(Kernel Regression) 기법을 적용해 스스로 이기는 전략을 수립하도록 만들었다. 자가학습 딥 러닝은 경기 상황에서 유리한 투구 위치를 예측하는 네트워크(정책망)과 현재 상황에서 승률을 예측하는 네트워크(가치망)을 하나로 결합해 학습 속도와 성능을 최대화한다. 또 커널 회귀 기법은 기존 탐색정보를 사용해 적은 수만 고려해도 최적의 전략을 찾아낼 수 있게 한다. 연구진은 고려대학교에서컬링 경기의 기록지의를 데이터로 바꿔서 제공한 내용으로 초기학습을 시켰고, 이후 스스로 생성한 약 450만 투구 데이터를 통해 강화학습했다. 이교운 학생은 “컴퓨터상에서 벌어지는 게임이라 현실에서 사람과 컬링 경기를 할 때와 조금 차이는 있다”면서도 “기존 전략들을 학습해 최적의 전략을 짜내는 알고리즘은 컬링 선수들의 훈련이나 전략 수립에 도움이 될 것”이라고 설명했다. 한편 디지털 컬링대회는 2015년 3월 일본 전기통신대학(UEC)에서 처음 시작해 올해 4회를 맞았다. AI 프로그램이 경기를 펼치는 가상의 컬링경기장은 UEC에서 개발한 시뮬레이터를 활용한다. 이 시뮬레이터는 컬링 경기에서 발생할 수 있는 환경변수를 적용한 컬링경기장을 꾸리며, 여기서 AI 컬링 대회가 진행된다. 2016년부터 UEC가 새로 마련한 GAT의 공식 종목으로 편성됐다. 이밖에 AI 컬링 프로그램이 실력을 가리는 대회는 2015년 9월에 열렸던 ‘IEEE-CIG 2015 Mini Competition’과 일본의 ‘게임 플레잉 워크숍(Game Playing Workshop, GPW)’에서 2015년부터 치러지는 경기가 있다. 최재식 교수팀은 2017년 11월 10일에 열린 ‘2017 GPW’에서도 2종류의 AI 컬링 프로그램을 참가시켜 우승했다. (끝) |
|
[붙임 ‘알파고’ 기술에서 컬링을 위해 진화한 딥 러닝 |
□ 컬링은 상대의 의도를 파악하고 투구 전략을 선택하는 등 치열한 두뇌싸움이 중요해 ‘빙판 위의 체스’라고 불린다. 최적 전략을 선택하는 경기라는 점에서 컬링은 바둑과 비슷한 면이 있다. 바둑은 한정된 격자 위의 한 수를 선택해 두는 반면, 컬링은 빙판위에서 스톤이 위치할 무한대의 경우를 가정해 전략을 생성한다는 점에서 바둑보다 고려해야 할 기술적 요소가 많고 복잡하다. □ 본 연구팀은 알파고의 자가학습* 딥 러닝 기술에 연속공간을 효과적으로 탐색하는 커널 회귀** 기법을 융합하여 빙판위에서 최적 전략을 선택하는 컬링 전략 인공지능 시스템을 개발했다. |
* (알파고의 자가학습) 인간의 학습지도 없이 스스로 경기를 하며 경기내용을 학습하고 실력을 키우는 비지도학습 알고리즘. ** (커널회귀) 전략을 평가할 때, 주변의 정보를 활용하여 적은 수의 탐색으로도 최적전략을 찾는 것을 가능하게 하는 기술. |
□ 이번에 개발된 인공지능 시스템은 2017년 11월 일본에서 열린 디지털 컬링 대회*에서 우승했으며, 지난 대회에서 우수한(Top 3) 성적을 거둔 팀들과의 대전결과 더 높은 승률(Elo 점수 기준)을 보였다. |
* 2017년 국제 게임 프로그래밍 워크샵(GPW: Game Programming Workshop) |
[참고1] 정책망과 가치망이 융합된 딥 러닝 |
ㅇ 본 연구팀은 한정된 경기 데이터에서 학습효과를 최대화하기 위해 정책망과 가치망*을 하나의 네트워크로 융합한 “정책-가치망”을 활용함. |
* (정책망) 주어진 상황에서 다음 스톤을 투구할 위치에 대한 확률이 학습된 딥러닝. 정책망의 결과를 커널회귀 탐색의 시발점으로 사용함. * (가치망) 주어진 상황의 가치(점수)의 확률분포가 학습된 딥러닝. 탐색 시 해당 전략의 가치 평가를 위해 사용함. |
ㅇ 디지털 컬링대회 상위 팀들의 경기데이터를 추출해 약 16만 투구 데이터를 초기학습에 이용했고, 이후 자가 경기로부터 생성된 약 450만 투구 데이터를 학습에 이용함. |
[참고2]게임 인공지능 토너먼트 Top3 모델과 Elo 점수 비교 (커널회귀 기반 자가학습: KR-DRL*) |
ㅇ 본 연구팀이 개발한 KR-DRL*은 디지털 컬링 대회**에서 우수한 t성적(상위 3팀)을 거둔 팀들과의 시뮬레이션해 본 결과 더 높은 승률(Elo 점수***)을 보임. |
* (KR-DRL) Kernel Regression-Deep Reinforcement Learning ** (디지털 컬링 대회) 일본에서 개최된 통칭 ‘게임 인공지능 토너먼트(GAT: Game AI Tournament)’의 한 종목으로 AI 컬링 프로그램끼리 겨루는 게임 *** (Elo 평점 시스템) 바둑과 체스 등의 두 명의 플레이어가 경쟁하는 게임에서 실력을 측정하고 평가하기 위한 점수 산출 방법. Elo 점수 차이에 따른 승률: 72(60%), 149(70%), 240(80%), 366(90%), 800(100%). |
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |