미국의 표준게놈 서열에 한국인(SJK)을 비교 해본 결과 표준게놈 대비 99.90%에 부합됐다. 서양인 표준게놈과 비교 분석 시, 정확성을 높이기 위해 36 또는 75bp 염기 길이의 서열 조각이 이미 알려진 표준게놈의 영역에 정렬을 할 때 36개 또는 75개 염기 중 염기의 불일치 숫자가 2개 이하 인 조각들만 사용했다. 또한, 채용된 서열 해독 기술의 장점 중 하나인 ‘두 서열 간의 연관 정보’를 활용해 자기 자리가 아닌 위치에 일치 된 것들을 제거했다. 추가로 표준게놈의 특정 영역에 DNA 조각들이 최소한 4개 이상 일치되는 것을 사용해 그 신뢰도를 올렸으며, 100번 이상으로 과도하게 붙여지는 DNA 영역은 제외 했다. 기존의 BGI사에서 나온 중국인 유전체 분석 결과와 큰 차이를 보여주고 있었다. 다시 말해, 김성진 박사의 게놈은 양후안밍의 것과 생각보다 많이 다르다는 것이다.
왓슨과 벤터, 양후안밍과의 상호 게놈 비교를 해보면, 중국인에게서만 발견된 302만개의 변이 (SNP) 와 비교했을 때, 서로 공유하는 건수는 약 206만개의 염기였으며 한국인(SJK)에게서만 나타나는 SNP는 137만개나 됐고, 크레이그 벤터 박사의 개인게놈과의 비교에서는 각각 공유가 173만개, 한국인 것만이 170만개로 나타났다. 한국인을 포함한 3명 모두에게서 공유된 SNP는 128만건인 반면에, 나머지 2 명에게는 나타나지 않은 한국인에서만 특이하게 발견된 SNP는 약 92만개나 됐다. 이 중에서 공개된 단염기다형성 데이터베이스에서도 일치를 보이지 않는 전혀 새로운 SNP가 42만개나 된다. 이는 인간의 유전체 전체 길이의 0.013%에 해당 한다. 한국인의 경우 인류의 2만개의 DNA 염기당 약 3개의 DNA는 고유한 염기(변이)를 가지고 있다고 이야기 할 수 있다. 이것이 시사하는 한 가지는 설사 중국인과 일본인의 게놈 서열이 해독 되더라도 거의 같을 것으로 예측된 한국인의 게놈도 상당한 변이를 가지고 있으며, 앞으로도 계속 한국인 유전체의 변이를 분석해 나갈 필요가 있음을 말한다. 참고로 SJK의 미국 국가생명정보센터(NCBI)등록 번호는 SRA008175이다.
김성진 박사 (2008년 당시 50세 중반)의 혈액 샘플로부터 DNA을 추출했다. 다음으로 일루미나에서 제작된 서열 해독기(대당 8억 정도)를 사용해, 2008년 4월부터 이길여 암당뇨연구원에서 서열해독을 시작했다. 일루미나의 해독기는 Single end형을 과거에 시판하다가, 당시에 Paired end로 업그레이드를 했다.
한국인 게놈 프로젝트에서 사용한 방식은 DNA 조각의 양쪽을 읽어 들이는 Paired end 방식이라는 것이었다. 서열 해독 과정 이후 유의한 정보 추출 작업인 서열 해석 과정이 이어졌으며 한국생명공학연구원의 코빅이 분석 작업을 진행했다. 총 서열해독 시료 비용은 약 2억5,000만원이 투여됐고, 실험인 서열 해독에 투입된 인원은 2명이었다. 서열 해독과 서열 해석의 수행에 소요된 기간은 각각 56일과 5.42일 정도로, 한 명의 게놈 서열을 8X 정도로 분석하기 위해서는 약 2달의 시간이 소요됐다. 서열 해독(실험)과 서열 분석(정보 분석)의 과정은 다음과 같다.
# 게놈 서열 해독 단계
1. 혈액의 백혈구에서 DNA 추출한다. 2. 초음파 (sonication)를 이용해서 DNA 조각화(fragmentation)한다. 3. 조각난 DNA 양쪽에 adaptor 를 부착한다. 4. 증폭 과정. 5. 증폭된 DNA를 미세유체(microfluidics)칩에 혼성화(hybridization) 6. 그 후 해독 (sequencing) 반응을 통해 초대용량 병렬 서열 생산. 7. 현미경을 통해 고화질 이미지를 생산한다(실험 한 번이 끝나면 약 2TB의 이미지가 생산된다). 8. 이미지 처리를 통해 이미지를 텍스트로 변환한다(염기서열을 얻는다).
<본 칼럼은 2024년 4월 22일 울산매일신문 “[박종화의 게놈이야기(49)] 개인유전체 분석 과정”라는 제목으로 실린 것입니다.>