개개인의 유전 정보의 차이에 기초하여 치료를 하려는 의생물학 분야의 맞춤형 의학 (Personalized medicine) 혹은 정밀 의학 (Precision medicine)을 위한 새로운 기술들과 이러한 기술의 발전으로 펼쳐질 우리 미래의 치료 방법 혁신에 대해 지난 몇 달간 이야기 해 보았다. 오늘은 최근 컴퓨터 공학, 전산 과학의 발전으로 인한 빅 데이터 분석이 의생물학의 맞춤형 의학에 얼마나 큰 기여를 하고 있는지 다뤄볼까 한다.
최근들어 빅 데이터에 대한 관심이 사회 전반적으로 확대되고 있다. 사회 전반적 현상들에서 생기는 많은 데이터를 모으고, 이를 분석함으로 미래의 방향을 예측하는 새로운 분야로 많은 데이터의 저장이 가능해지고, 이를 분석하는 전산처리 능력이 향상됨에 따라 이 분야에 대한 관심이 점점 커지고 있다. 예를 들어 상품의 시장 분석, 물류의 생산, 운반 루트 분석, 그리고 최근에 관심을 모았던 알파고와 같은 인공지능 등은 빅 데이터를 모으고 이를 분석하는 전산 능력이 향상되면 될수록 더욱 가속화 될 것으로 기대하고 있다. 스스로 운전하는 자동차의 기술도 빅 데이터를 모아, 이를 바탕으로 컴퓨터가 처리하는 능력을 심어줌으로 가능해지고 있는 분야라 할 수 있다.
이러한 빅 데이터를 모으고 이를 분석하는 기술이 의생물학에서도절실하게 필요해 지고 있다. 과거 의생물학은 하나의 유전자, 그리고 이 유전자에 의해 만들어 지는 RNA나 단백질, 그 주변에 존재하는 몇 몇 단백질 연구가 주를 이루었다. 필자가 연구하는 유전체 항상성 연구도 과거에는 DNA의 서열이나 구조를 위협하는 문제가 있을 때, 이를 수리하는 단백질들 몇 가지나, 문제를 인식하여 세포에 시그널을 전파하는 몇 가지의 단백질을 연구하는 것이 주류였다.
하지만, 세포는 DNA의 서열이나 구조를 위협하는 문제에 대처해 한두가지의 시그널만을 보내는 것이 아니라, 세포의 전반적인 생체 활동에 영향을 주는 많은 시그널을 내보내게 된다. 일단 문제를 수리하려는 DNA 복구 단백질들을 활성화 시키는 시그널이 만들어 져야하고, 복구 과정동안에 세포가 다른 대사활동을 하지 못하도록 전반적인 대사 활동을 막는 시그널도 만들어져야 한다.
그리고, 세포가 문제가 있는 상태로 분열하지 못하도록 하는 시그널도 만들어져야 한다. 이외에도 많은 다른 세포내의 생체 활동의 변화를 위한 시그널이 만들어 져야한다. 한 가지의 시그널을 위해서 적게는 네다섯 가지, 많게는 열 가지 이상의 단백질의 변화가 이루어진다.
이런 많은 변화를 다 측정하고, 이들의 상관관계를 이해해야 비로서 특정 DNA의 서열이나 구조를 위협하는 내 외부 환경 요인에 의한 세포의 반응을 알게 된다. 내 외부 환경에도 자외선, 각종 화학물질, 그리고 세포내 대사 부산물 등 너무나 다양한 많은 요인이 존재한다.
현재 많은 연구자들이 이런 빅 데이터를 실험실에서 사용하는 세포주를 사용하여 모으고 있고, 분석을 진행하고 있다. 세포주들은 그러나 생체의 각기 다른 기관으로부터 만들어졌다. 따라서, 기관별로의 차이에 의해 다른 결과가 나올 수 있으므로 기관별 차이성이 있는 데이터가 만들어져야 한다. 아마 독자들은 이미 그 데이터의 수가 엄청 많아졌다고 생각할지 모르겠다.
하지만, 여기까지는 정말 빙산의 일각이라 할 수 있다. 맞춤형, 정밀의학을 하기 위해서는 개개인의 유전정보에 따른 차이를 기초해서 처방을 한다. 개개인의 차이가 얼마나 될까? 한 사람의 경우부터 보도록 하자. 한 사람의 경우 약 25,000개의 단백질이 하나의 세포 내에 존재한다. 이 단백질도 다 똑같은 것이 아니고, 다양한 변형체가 존재한다. 그리고, 이 변형체의 발현 양상이 기관마다, 나이에 따라 다르다. 현재 위키페디아 (WIKIPEDIA)에서 정의 하는 한 사람에게 존재하는 세포의 가짓 수가 대략 150가지나 된다.
따라서 한 사람의 몸에서 단백질의 양만을 본다고 해도 약 3,750,000의 데이터가 나오게 된다. 여기에 각종 변형을 넣으면, 그 수는 더욱 많아지게 된다. 사람들은 서로가 다르기 때문에 개개인의 데이터가 몇 백만에서 몇 천만개가 만들어 지게 되는 것이다. 이 경우수가 한 사람에게 존재하는 단백질의 종류와 세포에 존재하는 양만을 측정한 데이터이다. 여기에 남한 인구수 50,000,000을 넣으면, 거의 1경(京)개의 데이터가 모이게 된다.
이 가지수는 외부환경이 차이가 없는 경우이고, 외부환경의 변화에 따라 모든 것이 변화하므로 데이터 수는 기하급수적으로 많아지게 된다. 그리고, 각각의 변화된 단백질들이 변화가 이루어지는 가능성도 다양하므로, 데이터의 수는 무한대로 올라가게 된다. 결국 이러한 많은 데이터는 사실 지금 빅 데이터 분석 분야에서 하고 있는 여러 분야중에서 가장 복잡한 데이터 분석이 될 것으로 생각된다.
울산시에서 최근 들어 울산과학원에서 주도하는 울산 게놈 프로젝트를 하나의 중점 사업으로 지원을 시작했다. 울산과학원의 많은 교수님들, 그리고 울산시 주변의 여러 병원들이 함께하여 만들어질 울산 게놈 데이터는 빅 데이터의 기반을 만들게 될 것으로 기대된다. 이러한 사업의 지속적인 지원과 만들어진 빅 데이터를 분석할 인력 수급, 인프라 구축은 울산을 넘어 한국내의 빅 데이터 분석 분야, 그리고 더 나아가 맞춤형, 정밀 의학을 주도하는데 중요한 역할을 할 것으로 기대된다.
명경재 UNIST 특훈교수 IBS 유전체 항상성 연구단 단장
<본 칼럼은 2016년 9월 21일 울산매일신문 3면에 ‘[명경재 칼럼] 맞춤형·정밀 의학 가능케 하는 과학 발전 : 빅데이터 분석’이라는 제목으로 실린 것입니다.>