코로나19 방역 과정에서 확진자 동선이 날짜와 시간대별로 구체적으로 공개되면서 개인 사생활과 관련된 예상치 못한 해프닝이 발생하는 등 프라이버시 침해 논란이 제기되었다.
이러한 과정을 지켜보면서 필자는 4차 산업혁명의 선두마차 기술인 인공지능과 그것의 핵심 원료인 데이터에 대해 떠올리게 되었다.
인공지능 기술은 말 그대로 인공의 지능을 개발하고자 하는 것으로, 수많은 데이터에 내재되어있는 패턴을 학습하여 인간의 지적 기능을 모사하고자 한다. 인공지능 기술의 우수한 성능을 위해서는 양질의 학습 데이터를 다량 확보하는 것이 매우 중요하다. 인공지능을 학습할 때 사용되는 데이터의 양이 제한적이거나 부정확할 경우 개발된 인공지능에 대한 신뢰성 문제가 제기될 수밖에 없다.
매일 천문학적인 숫자의 데이터가 수집되고 있지만, 특정 인공지능을 개발하는데 쓰이는 데이터의 종류와 양은 한정적이기 때문에 데이터의 공유, 나아가 유통과 거래가 활성화될 필요가 있다. 우리나라도 이에 대한 중요성을 인지하여 작년 데이터 3법을 국회에 통과시켜 인공지능 관련 분야의 성장에 더 큰 기대감을 보였다.
그러나 데이터 3법에 따라 개인 정보가 주체 동의없이 상업 목적으로 쓰일 수 있다는 우려가 일각에서 제기되고 있다. (공익 목적이라도 동의없이 활용되는 것은 문제가 있다.) 데이터 3법은 데이터의 정보 주체를 알아볼 수 없게 한 가명(비식별)정보의 활용을 인정하는 것으로, 가명정보에 대해 특정 개인을 알아볼 수 있게 할 경우 형사처벌과 과징금을 부과한다고 규정한다. 그러나 가명정보를 어떻게 만들 것이며, 가명정보를 만든다고 해도 특정 개인을 식별할 수 없다는 것을 어떻게 보장할지 등에 대한 구체적인 방법은 제시되지 못한 상황이다.
이러한 상황에서 데이터 제공자 입장에서 데이터 주체를 알아볼 수 없다고 판단된 가명정보를 사용한다고 했을 경우에도 예상치 못한 프라이버시 침해가 발생할 수 있다는 것이 보고되고 있다. 한 사례로 넷플릭스는 영화 평점 예측 알고리즘을 개선하는 대회를 열고 가명 처리한 이용자들의 영화 평가 정보를 배포하여 활용하도록 했다. 그러나 이 과정에서 다른 사이트 이용자들의 평가 정보를 활용해 특정 정보의 주체가 도출되는 문제가 발생했다. 또 다른 예로, 유전자 정보만으로는 개인을 특정할 수 없다고 생각했던 것과는 달리 유전자 정보 안의 패턴을 분석하여 특정 개인의 성과 친인척 관계까지 밝혀냈고, 이 정보에 추가적으로 나이, 사는 지역을 조합하여 개인을 특정하는 데에 성공한 연구도 보고됐다.
이렇게 프라이버시가 노출되는 사례가 보도됨에도 불구하고 이러한 문제에 과민 반응할 필요는 없다는 지적도 나왔다. 누군가 실제로 개인정보 유출을 할만한 동기는 없으며, 아직까지 프라이버시 노출로 인해 큰 피해가 보고된 바가 없음을 그 근거로 들었다.
그러나 아직 발생하지 않았다고 앞으로도 발생하지 않는다는 안일한 생각으로 관련 논의를 미뤄두는 것은 소 잃고 외양간 고치는 일을 발생시킬 수도 있다. 최근 프라이버시를 보호하면서 인공지능을 개발할 수 있는 기술이 속속 보고되고 있으며 애플, 마이크로소프트, 구글 등 최고의 IT 기업들도 그들의 기술 개발에 있어 개인정보보호를 중요하게 고려하고 있음을 강조하고 있다.
우리나라가 인공지능 기술을 선도하기 위해서는 데이터 활용과 프라이버시 두 마리 토끼를 동시에 잡을 수 있는 실효성 있는 시스템을 갖추는 것이 필수적이다. 이를 위해서는 여러 전문가들 사이의 활발한 논의와 적극적인 참여가 필수적으로 동반되어야 하며 이러한 장을 만드는 데에 사회의 적극적인 노력이 필요할 것으로 보인다.
이정혜 UNIST 산업공학과 교수
<본 칼럼은 2021년 1월 21일 경상일보 14면 ‘[경상시론] 인공지능과 프라이버시가 양립 가능 하려면’이라는 제목으로 실린 것입니다.>