흔히 4차 산업혁명시대의 핵심 기술을 인공지능, 빅데이터, 로봇, 사물인터넷, 3-D 프린팅, 드론, 블록체인 등이라고 이야기한다. 이러한 기술들의 발전과 효과적인 적용에 따라 미래의 성장이 결정될 것이다. 이를 모두 연결하고 소통하게 하는 기본 매체가 데이터이다. 사물인터넷을 통하여 수집되는 많은 데이터를 인공지능으로 분석하여 적절한 행동·반응을 로봇이나 드론이 수행한다. 자동차 자율주행도 이러한 시스템의 집합체이다. 블록체인은 이러한 데이터의 안전성을 높이기 위한 한 방법이라고 보면 되겠다. 즉 데이터가 미래의 사회를 움직이는 지금의 자동차의 휘발유 같은 역할을 한다고 하여 혹자는 데이터를 ‘21세기의 오일(Oil)’이라고 부른다.
2018년에 발표된 다보스포럼 보고서에 의하면 데이터 분석가가 미래에 가장 수요가 많은 직업 1위로 선정되었고, 올해 모 일간지에서도 미국에서는 데이터 분석가가 좋은 직업 1위 자리를 3년 연속 차지하고 있다고 했다.
데이터 분석은 4차 산업혁명시대가 도래하기 오래전부터 잘 활용해 오고 있다. 그 한 예가 통계학이고 통계는 데이터 분석을 통해 유의미한 결과를 찾아내는 것이다. 그럼 통계학과 지금 이야기하는 데이터(빅데이터) 분석과는 어떤 차이가 있을까? 학문적 배경에도 차이는 있겠지만 간단히 말해 통계적 데이터 분석은 소수의 표본 집단 분석을 통해서 전체적인 경향을 파악하는 것으로 여론조사가 그 대표적인 예이다. 즉, 작은 표본 집단으로 전체를 파악하려는 노력이다. 이에 반해 빅데이터 분석은 전체의 모든 데이터 (빅데이터)를 통해서 유의미한 결과를 도출하는 것이다. 예를 들면 특정 주식에 관련되는 자료, 정보, 관련 문헌, 대화기록 등 모든 수집 가능한 정보를 모아 분석하므로써 유의미한 결과를 도출하거나 특정 질병의 모든 실제 기록과 실험 결과 관련 논문들을 분석해 그 속에서 어떠한 동향이나 특징을 찾아내는 것이다.
좀 더 확장하면 CCTV에 나타나는 영상들을 특정한 형태의 빅데이터로 저장하고 행동과 사고 형태 등을 인공지능으로 분석해 사람의 눈으로 CCTV를 일일이 관찰하지 않아도 위험상황을 예지할 수 있게하는 것도 가능하다. 산업체에서는 공정상의 데이터를 수집 분석해서 기계가 고장나기 전에 미리 인지하고 부품을 교체하거나 운전 조건을 변경하여 사고나 고장을 미연에 방지하는 예지보전(predictive maintenance)에 공을 들이고 있다. 또 제품 불량을 예측해 사전에 조정하려는 ‘불량률 제로 (zero defect)’도 시도되고 있다.
이러한 기술의 확장성은 아직도 무궁무진하다. 제약, 정밀의료, 제조혁신, 스마트 물류, 스마트 교통 등 모든 것이 실시간 감지되는 데이터에 의존하고 있으므로 이 데이터를 감지, 전송, 저장, 분석하는 새로운 직업들이 생겨나고 있다, 대학에서도 데이터 분석, 데이터 마이닝 등의 새로운 과목들이 개설돼 이 분야는 더욱 발전할 것으로 본다. 한 국가의 미래는 젊은 인재들이 어디로 가고 있는가에 따라 결정된다고 한다. 젊은이들이 안정된 직장이면서 정년이 보장되고 편안하고 여유로운 생활을 하고 싶다는 생각에 지금도 차고 넘치는 공무원이나 소비형 일자리를 찾는 데 매달리는 것도 좋지만, 그보다는 미래 발전을 위한 기술 분야에 도전하라고 권유하고 싶다. 이제 우리나라도 똑똑한 인재들이 데이터 분야에 많이 참여해 새로운 미래가 개척되기를 기대한다.
IBM 조사에 따르면 하루에 800억 GB의 데이터가 생산되고 그중 80%의 데이터는 전혀 활용되고 있지 않다고 한다. 그뿐만 아니라 지금까지 전 세계에 축적된 데이터의 80%가 최근 3년 데이터라고 하니 데이터의 미래가 얼마나 빠르게 발전할지 상상이 가능하다. 반대로 이로 인해 데이터 안전(security), 데이터 표준화 등 많은 숙제가 있고 발전 가능성도 무궁무진하다. 명심할 것은 데이터 활용이 인류의 행복과 번영을 위해서 활용되어야 하므로 지금부터라도 데이터의 올바른 활용과 적용의 문화를 만들어가야 한다.
김동섭 UNIST 교수·경영공학부 학부장·4차산업혁명 연구소장
<본 칼럼은 2019년 5월 14일 국제신문 30면 ‘[과학에세이] 데이터의 전성시대’라는 제목으로 실린 것입니다.>