Press release

2016. 06. 28.(화)부터 보도해 주시기 바랍니다.

*이 보도자료는 한국연구재단 주관으로 배포됐음을 알려드립니다.

인공지능으로 환율 등 시계열 데이터 자동 분석

예측 정확도 평균 46% 향상, 금융·원자력 등 산업 분야 적용 기대

□ 인공지능으로 주식, 환율, 집값 등 시계열 데이터 변화를 분석하여자동으로 보고서를 작성할 수 있게 된다.

한국연구재단(이사장 정민근)은 미래창조과학부 기초연구사업(개인연구), 원자력연구개발사업 지원을 받은 최재식 교수(울산과학기술원) 연구팀다중 시계열 데이터*의 공통적인 변화를 자동으로 추출하는 인공지능 시스템인 관계형 자동 통계학자 시스템**을 개발하여 기존 예측 시스템의 성능을 현저하게 향상시켰다고 밝혔다.

*다중 시계열 데이터: 시간에 따라 변화하는 다수의 변수의 기록. (시간별 다수 주식 가격, 시간별 다수 환율의 변화 등)

**관계형 자동 통계학자 시스템: 다중 시계열 데이터의 관계를 분석하여 시계열 데이터가 공통적으로 변화하는 요인을 추출하고 자동으로 보고해 주는 시스템

□ 주식 환율 등 시계열 데이터의 분석은 여러 가지 복합적인 요소가 영향을 미치기 때문에 예측에 영향을 주는 요소를 정확히 찾는 것은 매우 어렵다. 연구팀은 기존의 가우시안 과정***기반 인공지능 데이터 분석법에 다중 시계열 데이터의 변화를 고려하면 시계열 데이터의 보다 정확한 예측이 가능함을 보였다.

***가우시안과정: 연속 시계열 공간의 변수 중 유한한 변수를 선택하였을 경우 가우시안 분포로 표현할 수 있다고 가정하는 비모수 가우시안 모델

□ 연구팀은 시계열 데이터 군의 공통적인 변화를 표현하는 원인과 개별적인 시계열 데이터의 변화의 원인을 자동으로 조합할 수 있는 알고리즘인 -관계형 커널 학습 알고리즘****을 개발하여 비정형 화를 보이는 시계열 데이터를 더욱 정확하게 예측하는데 성공하였다.

****준-관계형 커널 학습 알고리즘: 다중 시계열 데이터의 변화를 공통적으로 표현하는 관게형 커널 및 개별적인 데이터의 변화를 표현하는 개별적인 커널을 함께 학습하는 알고리즘

□ 관계형 자동 통계학자 시스템은 다중 시계열 데이터의 공통적인 변화 및 개별적인 변화를 찾아 각 시계열 데이터의 미래 변화를 정확하게 예측할 수 있다. 실제 이 통계시스템은 911공격 후 미국 상위 주식이 공통적인 하락 후 상승을 보인 특징을 찾고, 이를 기반으로 변화를 예측한 결과를 보였다.

□ 특히 원자력 발전소에서 특정 부품의 이상 징후가 발견되는 경우 특정 부품의 변화가 고장인지, 정상 범위의 변화인지 판별하는 것은 매우 중요하다. 이 연구에서 개발한 자동 통계학자 시스템은 원자력발전소를 포함한 발전소 센서 및 미래의 변화를 예측함으로써 발전소 시설의 진단 정확도를 높이는데도 적용할 수 있다.

최재식 교수는 “이 연구는 데이터 군에서 추출한 특징 정보와 개별 데이터에서 추출한 정보를 혼합하여 시계열 데이터의 자동 분석 정확도를 향상시킨 것이다. 시계열 분석이 중요한 주식, 환율 등 금융 산업은 물론 시계열 센서 분석을 통하여 주요 부품의 고장을 예측 진단하는 것이 필수적인 원자력 발전, 공업, 군사 산업 등 다양한 산업에 적용할 수 있을 것이다.”라고 연구의 의의를 설명했다.

□ 이 연구 성과는 622 개최된 세계적 권위국제 기계학습 학술대회(International Conference on Machine Learning)에서 발표되었다. 컴퓨터 분야는 빠르게 변화하는 해당 분야 특성을 반영하여 최고 권위의 학술대회 발표 논문을 최고 권위의 학술지 논문 게재와 동등하게 인정하고 있다.

자료문의

한국연구재단: 이정희 홍보팀 선임연구원 (042)869-6116

울산과학기술원: 최재식 전기전자컴퓨터공학부 교수 (052)217-2144

  • 최재식 교수 연구그림 (1)
  • 최재식 교수 연구그림 (2)
  • 최재식 교수 연구그림 (3)
  • 교수님 프로필
 

[붙임] 논문의 주요 내용

논문명, 저자정보

  • 논문명: Automatic Construction of Nonparametric Relational Regression Models for Multiple Time Series
  • 저자 정보: 최재식(교신저자, 울산과학기술원), 황윤성(제1저자, 울산과학기술원 석사졸업), 앵통(공동저자, 울산과학기술원 석박사과정)

논문의 주요 내용

  1. 연구의 필요성

○ 시계열 데이터의 분석은 주식, 환율 등 금융 데이터의 변화 예측을 통한 투자 및 발전소등 산업 기반 시설에서 부품의 노후화 및 고장 예측에 필수적인 기술이다.

○ 일반적으로 시계열 데이터의 분석 및 변화의 예측은 여러 가지 복합적인 요소가 변화에 영향을 미치기 때문에 예측에 영향을 주는 요소를 정확하게 찾는 것은 매우 어렵다.

  1. 연구 내용

○ 시계열 데이터의 군을 기반으로 변화를 예측하는 확률 관계형 모델은 전체군의 변화의 추이를 빠르고 견실하게 예측하는데 적합하지만 일반적인 예측 정확도는 개별 시계열 데이터 분석법에 비하여 덜 정확한 경우가 많은 것으로 알려져 왔다.

○ 연구팀은 개별 시계열 데이터를 효율적으로 학습할 수 있는 스펙트럴 커널*을 통해서 우선 학습하고, 시계열 데이터의 군에서 학습된 관계형 모델과 혼합하여 최적의 조합을 찾을 수 있는 준-관계형 커널 학습 알고리즘을 개발하여 기존의 개별 시계열 데이터 분석보다 정확한 예측을 가능하게 하였다.

* 스펙트럴 혼합 커널: 가우시안 과정의 공분산을 다른 주기를 갖는 스펙트럼의 혼합으로 표현하는 커널

  1. 연구 성과

○ 연구팀이 개발한 준-관계형 커널 학습 알고리즘은 기존 캠브리지 대학과 MIT에서 개발한 자동 통계학자 시스템에 비하여 향상된 예측 능력을 보였다.

○ 구체적으로 세가지 금융 데이터의 예측 분석 작업에서 기존의 자동 통계학자 시스템에 비하여 평균적으로 약 46%의 예측 정확도* 향상이 있었다. 2001년 911공격 전후 7개월간 미국의 9대 주식을 학습하고 향후의 변화를 예측하는 작업에서 기존 시스템에 비하여 41.9%의 정확도 향상, 미국의 6대 도시의 집값의 변화를 2004년에서 2013년까지 학습하고 예측하는 작업에서는 60.1%의 정확도 향상, 최근 미국 연준의 금리 인상 전후, 4대 신흥국의 환율을 6개월간 학습하고 예측하는 작업에서 38.9%의 향상된 성능을 보였다.

* 예측 정확도: 주어진 예측치(참 값)에 비하여 시스템이 예측한 값의 오류를 측정한 값으로 더 적은 오류를 내는 시스템이 더 정확하게 예측한 것으로 판단한다.

○ 시계열 분석을 통한 투자가 중요한 주식, 환율 등 금융 산업 뿐 만 아니라, 시계열 센서 분석을 통하여 주요 부품의 고장을 예측 진단하는 것이 필수적인 원자력 발전소, 중공업, 군사 산업 등 다양한 분야에 관계형 자동 통계학자 시스템이 적용할 수 있을 것이다.

○ 해외에서 활발하게 개발되고 있는 인공지능 기술을 국내에서 개발하여 원천기술을 확보한 것 또한 의의가 있다. 금융, 중공업 등 경제, 산업 분야 주요 시설의 안전을 진단하는데도 활용될 것으로 기대된다.

 

[붙임] 연구결과 개요

1. 연구배경

ㅇ 최근 인지 컴퓨팅 및 딥러닝의 발전으로 인공지능에 대한 관심이 증대하고 있는 가운데 세계적 경영 컨설팅 기업인 매킨지(McKinsey)는 인공지능의 발전을 통한 지식노동 자동화로 향후 10년간 세계적으로 연간 5조 2000억∼6조 7000억 달러의 지식노동 산업에 영향을 줄 것으로 예상하였다.

ㅇ 관련하여 시계열 데이터 등 빅데이터를 읽고 중요한 특징을 분석하여 자동으로 요약을 함과 동시에 그 변화를 예측하는 인공지능 시스템에 대한 연구가 세계적으로 활발하게 진행되고 있다.

ㅇ 주식, 환율 등 시계열 데이터의 분석 및 변화의 예측은 매우 중요하나, 여러 가지 복합적인 요소가 변화에 영향을 미치기 때문에 예측에 영향을 주는 요소를 정확하게 찾는 것은 매우 어렵다.

2. 연구내용

ㅇ 연구팀은 시계열 데이터의 군의 공통적인 변화를 표현하는 원인과 개별적인 시계열 데이터의 변화의 원인을 자동으로 조합할 수 있는 알고리즘인, 준-관계형 커널 학습 알고리즘을 개발하여, 비정형 변화를 보이는 시계열 데이터를 정확하고 견실하게 예측하는데 성공하였다.

ㅇ 우선 개별 시계열 데이터를 효율적으로 학습할 수 있는 스펙트럴 혼합 커널*과, 시계열 데이터의 군에서 학습된 관계형 모델의 최적 조합을 찾는 준-관계형 커널 학습 알고리즘*을 개발하여, 기존의 개별 시계열 데이터 분석보다 정확한 예측을 가능하게 하였다.

*스펙트럴 혼합 커널: 가우시안 과정의 공분산을 신호처리(퓨리에 분석, Fourier analysis) 기법을 사용하여 주파수 영역에서 그 주기적 변화를 근사하는 방법

*준-관계형 커널 학습 알고리즘: 다중 시계열 데이터의 관계를 분석하여 시계열 데이터가 공통적으로 변화하는 요인을 추출하고 자동으로 보고해 주는 시스템

3. 기대효과

ㅇ 시계열 분석을 통한 투자가 중요한 주식, 환율 등 금융 산업 뿐 만 아니라, 시계열 센서 분석을 통하여 주요 부품의 고장을 예측 진단하는 것이 필수적인 원자력 발전소, 중공업, 군사 산업 등 다양한 분야에 관계형 자동 통계학자 시스템이 적용할 수 있을 것이다.

ㅇ 해외에서 활발하게 개발되고 있는 인공지능 기술을 국내에서 개발하여 원천기술을 확보한 의의가 있으며, 향후 중요한 시계열 데이터의 변화(예, 원유가격 변화)를 정확하게 예측하여 국가 및 기업의 정책적 결정에 도움을 줄 것으로 예상한다. 더불어, 국내에서 관련기술의 개발 및 산업화를 촉진할 것으로 기대한다.

ㅇ 관련하여 선진 금융 기관에서 하는 바와 같은 정확한 금융의 거래의 흐름을 정확하게 분석하는 보고서를 자동으로 작성하는 시스템을 국내에도 도입할 수 있을 것으로 기대된다. 또한 다수의 시계열 데이터의 관계를 학습하고 그 변화를 빠른 시간에 예측해야 하는 중공업 산업의 주요 시설의 안전을 진단하는데도 활용될 수 있을 것으로 기대된다.

 

[붙임] 연구 이야기

연구를 시작한 계기나 배경은?

사람은 시계열 데이터를 분석할 때 다양한 외부 요인을 분석을 많이 사용한다. 예를 들어 뉴스의 경제면에는 항상, 전체 시장의 판세나 다른 나라의 동향이 주요한 내용으로 소개가 되고, 따라서 주요한 주식 종목에 대한 분석이 소개된다. 그럼에도 불구하고 현재 사용되는 통계 분석 도구들은 그렇지 않고, 개별 데이터의 특성을 분석하는데 초점이 맞추어져 있다. 이런 한계점을 극복하고자 자동 통계학자에 관계형 특징을 접목하는 관계형 자동 통계학자를 개발하게 되었다.

연구 전개 과정에 대한 소개

관계형 데이터는 시계열 데이터 군의 공통적인 특성을 추출하는 모델로 전체군의 변화의 추이를 빠르고 견실하게 예측하는데 적합한 것으로 알려져 왔다. 그러나 단순한 관계형 모델로는 기존의 최고 성능의 예측 성능을 내는 자동 통계학자의 성능을 구해지지 않았다. 연구팀은 시계열 데이터의 군의 공통적인 특성을 혼합할 수 있는 알고리즘을 고안하여 군의 특성과 개별 데이터의 특성을 자동으로 조합할 수 있는 알고리즘을 만들어서 예측 성능을 높일 수 있었다.

연구하면서 어려웠던 점이나 장애요소가 있었다면 무엇인지? 어떻게 극복(해결)하였는지?

캠브리지 대학과 MIT에서 개발한 자동 통계학자의 알고리즘은 공개되었지만, 방대한 양의 데이터를 처리하기 때문에, 한 컴퓨터에서 모델을 학습하면, 시도하는 모델을 검증하는데 너무 많은 시간이 걸렸다. 또한 시스템을 여러 대의 컴퓨터에서 실행할 수 있도록 하는 설정은 정확한 내용이 세부적으로 공개되어 있지 않아서 많은 시행착오를 거쳐서 여러 컴퓨터 서버에 분산 처리된 알고리즘이 수행될 수 있도록 하였다.

이번 성과, 무엇이 다른가?

단일 시계열 데이터에 대한 회귀 분석 및 예측에 관련된 연구는 많이 진행된 반면, 다중 시계열 데이터의 관계를 학습하고 변화를 예측하는 연구는 아직 많이 이루어지지 않았다. 더불어 시계열 데이터의 관계를 이용하여 세계적인 예측 시스템의 성능을 넘는 분석 방법은 세계적으로 매우 드물다. 연구팀은 이 연구 결과가 시계열 데이터의 특징 정보뿐만 아니라, 다른 외부적인 정보를 함께 조합하여 예측 성능을 높일 수 있는 주요한 방법을 보였다는 점이 기존 연구와의 주요한 차이점으로 보고 있다.

꼭 이루고 싶은 목표와, 향후 연구계획은?

관계형 자동 통계학자 시스템은 금융뿐만 아니라, 발전소 등의 산업 시설의 진단 등 시계열 데이터 분석이 포함되는 다양한 분야에 응용될 수 있다. 앞으로 관계형 자동 통계학자 시스템이 분석하는 다양한 종류의 시계열 데이터를 분석하고 군집화하고 분석한 결과를 데이터베이스로 수집하여 저장할 계획이다. 관계형 자동 통계학자 프로그램이 시계열 데이터를 자동으로 분석하여 보고서를 쓸 뿐만 아니라 프로그램을 자동으로 작성하여 데이터 분석을 더 수월하게 하는 연구에도 계속해서 힘을 기울일 예정이다.

 

[붙임] 용어설명

1. 국제 기계학습 학술대회(International Conference on Machine Learning, ICML)

ㅇ 인공지능중 기계학습 분야의 최고 권위의 국제 학술대회

2. 가우시안 과정(Gaussian Process)

ㅇ 연속 시계열 공간의 변수 중 유한한 변수를 선택하였을 경우, 가우시안 분포로 표현할 수 있다고 가정하는 비모수 가우시안 모델

3. 확률 관계형 모델(Statisticial Relational Model)

ㅇ 변수의 군 사이에 공통적인 관계를 확률적으로 표현하는 모델하여 학습하고 추론하는 모델

4. 커널(Kernel)

ㅇ 시간적으로 분리되어 있는 변수의 관계를 분산으로 표현하는 함수

5. 스펙트럴 혼합 커널(Spectral Mixture Kernel)

ㅇ 가우시안 과정의 공분산을 다른 주기를 갖는 스펙트럼의 혼합으로 표현하는 커널

 

[붙임] 그림 설명

(그림1) 2001년 911공격이 있을 때 GE 주식의 데이터 분석의 정성적 분석 내용. 기존 자동 통계학자 (a), (b) 는 911공격 이후의 급격한 주식 가격의 변화를 정확하게 감지하지 못하는 반면, 연구팀이 개발한 관계형 자동 통계학자는 (c), (d)에서 처럼 주식 시장이 911공격 이후 3일간 전반적으로 급격한 하락 및 상승이 있음을 발견하여 보고서로 작성하였다.

(그림2) 연구팀이 개발한 준-관계형 커널 모델. 개별적인 데이터를 표현하는 커널 kd(x,x’) 및 관계형 데이터를 표현하는 커널 ks(x,x’)을 함께 학습한다.

(그림3) 준-관계형 커널의 매개 변수를 학습하는 준-관계형 커널 학습 알고리즘. 최적의 가우시안 과정 커널과 그 매개 변수를 찾기 위해서, 관계형 데이터를 표현하는 커널 ks 과 개별적인 데이터를 표현하는 커널 kd를 학습한다. 탐색 과정에서는 다중 시계열 데이터를 표현하는 공통적인 커널 ks를 찾는데 집중하고, 최종적으로 남은 개별 데이터는 개별 데이터를 표현하는 커널 kd와 함께 표현된다.