한국은 보통 정보통신기술 (information, communication, technology, ICT) 분야의 강국으로 알려져 있다. 2016년 현재 인터넷 속도, 광대역 인터넷 보급률 세계1위이며, 삼성과 LG의 세계 스마트폰 시장 점유율은 2017년 3분기 현재 24.1%로, 세계인구의 1/4정도는 한국산 스마트폰을 쓰고 있다. 그러나 이렇게 잘 갖춰진 ICT 기반에도 불구하고 디지털 인문학 분야의 발전은 아직 걸음마 수준을 떼지 못하는 듯하다.
디지털 인문학은 ICT를 활용해 인문학 연구를 확장 및 심화하는 전반적 활동을 일컫는다. 대용량으로 저장된 정보를 검색, 분류하고 통계적, 전산적 방식으로 패턴을 분석하는 데이터 마이닝(data mining), 무수히 많은 텍스트 속에서 의미 있는 정보와 지식의 구조를 찾는 텍스트 마이닝(text mining), 점과 선을 사용해 행위주체와 집단, 주체와 행위 간의 관계를 규명하는 네트워크 분석 등 그 분야는 점점 확장되고 기계학습의 발달로 인해 분석도 깊이를 더하고 있다.
이러한 분석방법의 발달은 디지털 아카이브의 확충에 기인한 바 크다. 필사되어 있든, 활자화 되어 있든, 전자문서로 전환 돼야 전산적 방식을 사용할 수 있기 때문이다. 잘 알려진 구글의 도서관 프로젝트(Google Books Library Project)는 2015년 현재 2000만권이 넘는 서적을 스캔했고 검색이 가능하도록 디지털화 했다. 이미지 형태의 텍스트를 문서화하기 위해 문자인식(Optical Character Recognition, OCR) 기술을 높인 것은 말할 것도 없다. 2015년 미국의 작가협회와의 저작권 소송에서 구글이 승소한 뒤, 디지털 아카이브의 확충은 가속화하는 추세다.
연구대상 텍스트가 디지털화 되고, 그 외연이 확장함에 따라 연구재단의 관심도 늘었다. 미국은 인문학재단(National Endowment for the Humanities, NEH)이 2008년부터 디지털 인문학 지원을 시작했고, 영국의 예술인문연구회(Arts and Humanities Research Council, AHRC)와 경제사회연구회(Economic and Social Research Council, ESRC) 등에서 지원하고 있다. 한 연구자의 통계에 따르면, 전세계의 디지털 인문학 관련 센터, 학회, 기구 수는 190곳이 넘는다고 한다. 이러한 추세에 발맞추어 한국연구재단에서도 2016년부터 디지털 인문학 분야의 지원을 시작했다.
그러나 디지털 인문학제도와 기반 확장이 따르지 않는 지원은 밑 빠진 독에 물붓기가 될 공산이 크다. 특히 인문학 연구에 필수적인 텍스트의 디지털화, 문서화가 수반되지 않는 지원은 그렇게 될 가능성이 농후하다. 일례로, 고문서와 희귀자료, 연속간행물 등의 역사자료를 체계적으로 통합·관리하고 있는 한국역사정보 시스템의 디지털 아카이브는, 문서수집의 큰 노력에도 불구하고 구글 도서관에 비하면 초라하기 짝이 없다. 디지털 텍스트로 제공되어 곧장 분석기를 돌릴 수 있는 자료는 한정되어 있고, 그나마 필사자가 타이핑한 자료이기 때문이다. ICT가 난무하는 시대에 웬 필사냐고 반문하실지 모르지만, 그 사이트에 있는 식민지시기 잡지들은 타이핑된 것이다. IMF 외환위기 이후인 1999년 공공근로사업의 일환으로 역사자료를 타이핑하여 전자문서로 구축한 결과다. 이렇게 보면, 한국의 디지털 인문학 기술은 1999년의 타이핑 수준에 머물러 있다고 해도 과언이 아니다.
이러한 문제를 해결하기 위해서는 디지털 인문학을 활용해 당장의 가시적인 성과를 얻기보다는, 기초자료를 디지털화하고 확충하는 데에 노력을 더 기울여야 한다. 특히 한국어 문서의 특수성(가로줄, 세로줄, 한글, 한자, 일어, 영어 등이 뒤섞여 있는)에 맞게 최적화된 문자인식 기술을 개발하는 것은 눈앞에 놓인 과제다. 디지털 인문학이 컴퓨터 공학자와 인문학 연구자가 함께 하는 진정한 융합학문이 되어야 이유는 바로 여기에 있다.
이재연 UNIST 기초과정부 교수
<본 칼럼은 2018년 1월 25일 울산매일신문 16면에 ‘[시론 칼럼] 디지털 인문학의 발전을 위하여’이라는 제목으로 실린 것입니다.>