김성진 박사의 한국인 게놈 프로젝트에서 해독한 DNA 조각 수는 무려 17억5,000만개였다. 총 합산된 DNA 길이로는 821억 염기(base pair)에 해당된다. 이 양은 한 개인 유전체 총량의 29배에 해당하며, 현재 널리 쓰이는 컴퓨터 하드디스크에 저장된 형태로는 82 기가바이트의 용량이다.
게놈 길이 하나의 29배나 되는 양으로 서열을 해독한 이유는 해독 장비가 완벽히 오류 없이 서열을 해독할 수가 없기 때문이다.
미국의 표준 게놈 서열에 SJK를 비교 해본 결과 표준 게놈 대비 99.90%에 부합됐다. 서양인 표준게놈과 비교 분석 시, 정확성을 높이기 위해 36 또는 75bp 염기 길이의 서열 조각이 이미 알려진 표준 게놈의 영역에 정렬을 할 때 36개 또는 75개 염기중 염기의 불일치 숫자가 2개 이하 인 조각들만 사용했다.
또한 채용된 서열 해독 기술의 장점 중 하나인 ‘두 서열 간의 연관 정보’를 활용해 자기 자리가 아닌 위치에 일치 된 것들을 제거했다.
추가로 표준 게놈의 특정 영역에 DNA 조각들이 최소한 4개 이상 일치되는 것을 사용해 그 신뢰도를 올렸으며, 100번 이상으로 과도하게 붙여지는 DNA 영역은 제외했다. 기존의 BGI사에서 나온 중국인 유전체 분석 결과와 큰 차이를 보여주고 있었다.
다시 말해 김성진 박사의 게놈은 양후안밍의 것과 생각보다 많이 다르다는 것이다.
왓슨과 벤터, 양후안밍과의 상호 게놈 비교를 해보면, 중국인에게서만 발견된 302만개의 변이(SNP)와 비교했을 때, 서로 공유하는 건수는 약 206만개의 염기였으며 한국인(SJK)에게서만 나타나는 SNP는 137만개나 됐고, 크레이그 벤터 박사의 개인게놈과의 비교에서는 각각 공유가 173만개, 한국인 것만이 170만개로 나타났다.
한국인을 포함한 3명 모두에게서 공유된 SNP는 128만건인 반면에, 나머지 2명에게는 나타나지 않은 한국인에서만 특이적으로 발견된 SNP는 약 92만개나 됐다. 이 중에서 공개된 단염기 다형성 데이터베이스에서도 일치를 보이지 않는 전혀 새로운 SNP가 42만개나 된다.
이는 인간의 유전체 전체 길이의 0.013%에 해당 한다. 한국인의 경우 인류의 2만개 DNA 염기 당 약 3개의 DNA는 고유한 염기(변이)를 가지고 있다고 이야기 할 수 있다. 이것이 시사하는 한 가지는 설사 중국인과 일본인의 게놈 서열이 해독 되더라도 거의 같을 것으로 예측된 한국인의 게놈도 상당한 변이를 가지고 있으며, 앞으로도 계속 한국인 유전체의 변이를 분석해 나갈 필요가 있음을 말한다.
<본 칼럼은 2024년 4월 9일 울산매일신문 “[박종화의 게놈이야기(48)] 한국인 게놈 논문 내용”라는 제목으로 실린 것입니다. >