2017년 <네이처>에 소개된 ‘베니스 타임머신 프로젝트’는 현재진행형인 최첨단 디지털 아카이빙 기술을 볼 수 있다. 이 프로젝트는 1,000여년 전의 고문서가 보관돼 있는 베니스의 문서고 전체를 10년 동안 디지털화해 당시의 생활상을 시각화하는 거대 프로젝트다. 시민의 생몰기록, 세금계산서, 선박의 입출항 기록, 여러 지도들 등 각종 사료를 디지털화 하기 위해 고속스캐너 개발됐다. 책장을 넘기는 로봇 팔이 달린 이 스캐너는 하루에 450권이나 되는 자료를 스캔한다. 여기에 더해 스위스 로잔 공대에서는, 책장을 넘기면 바스러지는 고문서를 스캔하기 위해 3D 스캐너를 개발 중이다. 의료용 CT 기술을 활용한 이 스캐너는 360도 회전해 책을 스캔한 뒤 낱장을 조각조각 분리해 낼 것이다. 5년 사이 상용화될 기술이다.
그러나 대용량의 문서가 디지털화 되더라도 필요한 단어를 검색하거나 분석가능하도록 문자 인식이 되지 않으면 무용지물이다. 대부분 수기로 작성된 문서에서 문자를 인식하기 위해 EU 조약국들은 공동학술단체를 컴퓨터가 쉽게 문자를 인식할 수 있도록 알고리즘(algorithm)을 공동개발하고 있다.
이에 비해 한국은 고전사료든 근현대 문서든, 타이핑에 의존해 자료를 디지털화하고 있다. 고전학 관련 자료는 그나마 몇 십 년 전부터 정본작업을 거쳐 타이핑을 해 사정이 나은 편이지만 근현대 사료는 디지털화 한지 얼마 되지 않았고 타이핑으로 작업을 하기 때문에 디지털화 속도가 매우 더디다. 그러나 외국과 같은 고속 스캐너 개발이나 한국어 환경에 최적화된 문자인식 기술 개발의 소식은 어디서도 들려오지 않는다.
이러한 디지털 아카이빙 기술의 격차는 비관적인 미래, 특히 디지털 식민지라는 미래를 예비한다. 영국 디지털 인문학의 발전과정을 연구한 한 학자의 발표에 따르면 그런 조짐은 이미 보인다고 한다. 영국의 대영도서관에서는 ‘멸종위기 문서고 프로그램 (Endangered Archive Programme’을 진행하고 있다 (https://eap.bl.uk). 이 프로그램은 훼손될 위험에 처한 개발도상국 문서고의 자료를 디지털화한다. 2004년 이후 90여개 국가에서 이미 350여개의 프로젝트가 종료됐거나 현재 진행 중이다. 조건은 하나다. 실물자료는 해당국가에서 보관하지만 디지털화된 자료는 대영 도서관 아카이브에 저장해야 한다.
그냥 놔두면 사라질지도 모를 인류의 자산을 디지털 형태로나마 보존한다는 점은 박수 받을 일이지만, 그 자료가 모두 대영도서관에 소장된다는 점은 우려를 자아낸다. 한 때 큰 제국이었던 영국은 이미 대영박물관에 전세계에서 수집한 유물들을 보관하고 있다. 그 위에 답사 한 번 가지 않고 전세계에 흩어진 유물을 디지털 자료로 소장하는 것이다. 그 자료들을 빅데이터로 분석하면 문서고가 있는 국가에서도 파악하지 못하는 정보를 얻게 될 것이다.
아무리 디지털 기술과 프로젝트가 학문과 국가의 경계를 넘나든다고 하지만 이 역시 국가단위의 연구가 먼저 된 뒤에 국제적 협업이 이뤄져야 바람직할 것이다. 디지털 기반의 인문학을 위한 원천기술이 확보되지 않는다면 언젠가 우리는 식민지로 전락할지 모른다. 지금이라도 빨리 한국 환경에 최적화된 고속스캐너와 광학문자인식 기술을 개발해야 한다. 그 기술이 유니스트를 중심으로 개발되기를 기대해 본다.
이재연 UNIST 기초과정부 교수
<본 칼럼은 2018년 12월 11일 울산매일신문 18면에 ‘[시론 칼럼] 디지털 식민지가 되지 않기 위해서는’라는 제목으로 실린 것입니다.>