2008년 12월 4일 최초 한국인 게놈 해독 발표의 가장 중요한 점은, 게놈 데이터를 가지고 정보분석을 해 그 분석 결과와 기본 데이터를 모두 공개했다는 것이다.
그때 서울대는 그만큼 서열 해독이 되지 않았고, 분석도 지연되는 상황이었다. 서 박사와 나는 오랫동안 게놈 분야에서 협력을 해왔기 때문에, 서 박사 입장에선 섭섭하고 기분 상한 일이었을 것이다. 나도 개인적으로 미안했다. 그러나 서정선 교수의 서울대 게놈 서열을 한국의 정보연구소가 아닌 미국의 연구소와 같이 분석하겠다는 것은 서 박사의 결정이었다.
두 게놈 해독 팀이 상호협력을 위한 컨소시엄 구성안을 못 해내고, 각자 하게 된 것도 어떤 면에서는 한국의 연구 문화와 현실을 반영한 것이다. 이후에도 서 박사는 기자들에게, 김성진 박사의 KOREF(SJK)가 최초의 것이 아니며 서울대가 최초의 것이라는 의미의 말을 했다. 그리고 신문에는 ‘최초의 한국인 게놈에 대한 큰 논란이 있다’ 라며 보도가 나갔다.
나는 가천의대의 안성민 박사에게 게놈 해독을 더 빨리 더 많이 해서 논문 작성을 더 앞당겨야 한다고 요청했다. 그 당시 우리들은 Genome Research 학술지의 ‘Personal Genome’ 특별 이슈에 투고하기로 의견을 모은 상태였다.
12월 4일 첫번째 게놈 데이터 공개 이후, 2009년 1월 에 17배수 정도의 게놈을 해독하고 분석한 것을 코빅의 인터넷에서 공개했다. 그리고 2009년 2월경에는 23배수의 게놈을 해독하고 정보 분석한 것을 다시 코빅의 인터넷에 공개했다. 게놈 데이터는 약 20배수 정도의 해독량을 넘으면, 계속 더 하더라도 정확도나 새로운 변이를 찾는 효과가 빠르게 떨어진다. 따라서 25배수 정도의 양을 해독하면, 유전적 변이가 포화가 될 정도의 데이터가 나온다. 그뿐만 아니라 가천의대의 해독기는 당시에, 옛날의 36 염기 서열 크기의 DNA 해독 편이 아닌 70 염기 크기의 해독을 하고 있어서, 기존의 인간 게놈 해독 때보다 그 분석 정확도가 높았다.
2009년 1월경부터, 코빅은 미국의 NCBI에 게놈 데이터 등록 절차를 밟고 있었고, 2009년 3월 2일 공식적으로도 최초로 등록된 한국인 게놈이 됐다. 아시아인 게놈으로는 두번째이고, 세계적으로는 벤터, 제임스 왓슨, 일루미나사의 무명 흑인, 중국 양후안밍 박사를 이어 5번째였다. 그때까지 이름이 알려진 게놈으로는 3번째였다. 등록할 때의 최종 해독한 양은 약 29배수 정도였다. 염기수로 환산하면, 약 100GB (기가 베이스, 혹은 기바 바이트) 이다.
그 당시 나는 게놈분석 결과를 여러 번 발표했다. 2월 중순쯤인가 유전체 관련 학회에서 나는 거의 완성된 논문을 바탕으로 한 분석 발표를 했다. 그때 세미나에 참석한 마크로젠의 양갑석 박사와 처음 만났고, 나는 마크로젠과 서울대 게놈연구소와 게놈 정보 분석 관련해 협력하고 싶다는 의사를 밝혔다.
나는 초기에 미국의 ‘사이언스’ 잡지에 게재하길 제안했지만, 안성민 박사의 ‘Genome Research’ 특별판 게재 제안에, 좋은 의견이라고 생각했다. 나는 네이처와 사이언스 잡지를 개인적으로 좋아하지 않는다. 비정확한 논문이 많고 유행에 편승하거나, 정치적인 성격의 논문 선정을 하는 것을 몸소 체험했기 때문이다. 또, 내가 평생 받아본 논문 리뷰들 중에서, 네이처 잡지 리뷰의 수준이 최악이었다. 전문성도 없고 틀리게 한 리뷰를 편집자가 정치적으로 판단해 보낸다고 생각했다.
기억나는 것 중의 하나는 내가 1999년에 쓴 단백질 상호작용 관련 논문 초안을 네이처에 보냈는데, 그 리뷰 내용이 “매우 역사적으로도 중요하고, 과학적으로는 단백질 상호작용 분야에서 완전히 새로운 것이며, 그 분석도 매우 정확하다. 그러나 네이처에 실릴 정도는 아니다.”라는 것이었다.
<본 칼럼은 2024년 1월 30일 울산매일신문“[박종화의 게놈이야기(43)] 지속적 게놈 데이터 공개’”라는 제목으로 실린 것입니다. >