[박종화의 게놈이야기(50)] 전체 서열의 정확도와 완전해독

해독이 끝난 유전체의 정확도를 산정하는 표준화된 방법이 당시엔 없었다. 또한 유전체를 진짜로 완전히 해독한다는 것도 당시로선 불가능했고, 미국에서도 앞으로 몇 년 혹은 몇십 년이 걸릴 수도 있다.

유전체의 정확도는 다양한 지표(parameter)와 사용한 기계의 방법, 분석하는 생정보학 알고리듬 등에 따라 다르므로 서로 간의 비교가 단순하지 않다.

이번 Paired end를 사용한 일루미나 해독기는 2008년 Nature 지에 발표된 제임스 왓슨 박사의 454 기계와 비슷한 성능을 지녔다.

흔히, 게놈의 해독량을 말할 때, 7.8X (7.8배), 13X (13배)라고, 배수를 말한다. 이것은 한 사람의 DNA 샘플을 기계를 통해 해독할 때, 그때 실험에서 나오는 양을 모두 합한 DNA 서열의 양을 말한다.

Nature 지에 실린 제임스 왓슨은 454 해독기로 약 7.4배의 해독했다. 사람 일배체의 유전체는 약 30억개의 염기를 가지므로 7.4배이면 약 210억개의 염기를 해독한 것이 된다.

한가지 알아야 할 것은 아무리 배수가 높더라도, 서열해독 시 자르는 DNA 파편의 길이가 짧거나 길면, 그 정확도는 많은 차이를 낸다. 본 한국인 개인유전체의 배수는 약 7.8배이고, 몇 가지 지표들을 볼 때, 제임스 왓슨의 유전체와 비슷한 수준의 정확도를 가졌다.

해독된 서열을 해석하기 위해서는 수백 기가바이트의 데이터를 대용량으로 처리할 수 있는 장비와 기술이 필요하다. 대용량 처리는 많은 계산시간과 컴퓨터를 요구하므로, 이를 분산시켜 처리할 수 있는 대용량 분산처리 시스템과 단계별로 생성된 방대한 데이터를 저장할 데이터 저장 장치가 필요하다. 국가생물자원정보관리센터(KOBIC)의 대용량 분산처리 시스템을 구성해 총 5.42일 정도의 시간으로 이러한 작업을 수행했다.

# 시스템을 통한 서열 해석의 수행 과정

(1) 인간게놈 참조서열(reference genome sequence)을 색인화해 전산시스템으로 가져온다. 색인화는 대용량의 서열 데이터들을 빠르게 처리하기 위한 작업이며, 인간유전체 참조서열은 미국 국가생명공학 정보센터 (NCBI)에서 가져온 인간게놈프로젝트(HGP)의 것을 사용한다.

(2) 서열 해독기를 통해 생산된 수백 기가의 단편 서열들을 색인화해 시스템으로 가져온다. (약 2시간 소요)

(3) 서열 해독기를 통해 생산된 서열들을 인간유전체 참조서열에 대비해 염색체상의 위치를 확인한다. 가장 많은 계산 시간을 소요한다. 한 예로 22.4기가 정도의 서열을 한대의 최신 컴퓨터만을 이용해 위치를 확인한다면 204일 정도 걸리는 작업이 된다. 위치가 확인된 서열을 인간유전체 참조서열과의 대비를 통해 DNA 변이(SNP, NMP, in/del) 추출(48시간 소요)한다.

(4) 현재 문헌으로 공개된 인간과 관련된 표현형 연관성 분석 연구 결과들을 분석해 최초 한국인 게놈 샘플의 DNA 변이의 유전형과 비교한다. (24시간 소요) 24시간 런타임이 소요되지만, 이것을 하기 위해서 기초적 생명정보연구·파이프라인 개발·시스템 개발은 최소한 1년 반 정도의 시간 투자의 결과이다.

(5) 해석된 유전체 정보와 변이의 연관성을 보여주기 위한 인터넷용 유전체 브라우져 개발한다. (1명의 개발 인원으로 3개월 소요)

(6) Gbrowse라는 이미 공개된 유전체 브라우저를 이용해 SNP 부분의 변이를 잘 보여주게 세팅한다. (1명의 인원이 7일 소요)

(7) 홈페이지용 웹서버 구축한다. (32기비바이트 메모리·8 core CPU, 9테라바이트 레이드 저장장치) 코빅의 대용량 분산처리 시스템을 활용해 144대의 컴퓨터에 나눠 분산해 작업을 진행했고, 32시간으로 완료한다.

<본 칼럼은 2024년 4월 30일 울산매일신문 “[박종화의 게놈이야기(50)] 개인유전체 분석 과정”라는 제목으로 실린 것입니다.>

About the author