1990년대 초까지는 생정보학에서는 3차원 구조와 단백질 서열연구가 가장 주된 분야였다. 사람들은 게놈이나 DNA서열보다는 기능을 하는 단백질에 더 많은 연구를 했다. 그래야 제약회사에서 돈도 나오고, 또, 논문내기도 쉬웠다. 또 다른 것은 DNA서열 해독이 그때까지도 비싸고 힘들었다. 내가 팀에게서 이어받아 만든 PDB40J 단백질 구조 및 서열 데이타베이스는 ISS나 PSI-BLAST와 같은 반복적 프로파일 구축형 다중서열 비교 검색 알고리즘을 만들고, 많이 사용되는데 기여를 했다. ISS는 내가 또 다른 지도교수인 싸이러스의 요청으로 개발한 것으로, 하나의 단백질 서열이 다른 단백질 서열과 같은 조상을 가졌다면, 그 다른 서열과 같은 조상을 가진 제 3의 서열도 다 같은 조상을 가진다는 것을 증명하고, 그것에 기초해 만든 알고리즘이다. 너무 자명한 것 같지만, 실제로 그것이 생정보학적으로 얼마나 실용적인 의미가 있는지를 그 전에는 잘 몰랐었다.
1995년경 소문만 돌던 최초의 박테리아 게놈이 3개나 공개가 됐다. 게놈프로젝트는 논문을 위한 프로젝트가 아니고 공공사업적인 성격이 많았다. 따라서 논문이 게재가 안됐더라도 게놈이 다 해독되면 그 해독된 서열 데이타를 논문 발표 훨씬 전에 공개하고 프로젝트를 보도했다. 그래서 나는 이들 게놈을 1995~1996년경 입수할 수가 있었다. 공개된 박테리아들의 게놈은 나 같은 생정보학 연구자에게는 가슴 벅찬 대단한 뉴스였다. 나는 단백질 서열과 3차원 구조를 많이 연구하고 있었지만, 그때까지도 내가 학부 때부터 연구해오던 DNA구조에 큰 관심이 있었다. 나는 DNA 게놈 서열을 이용해 하고 싶은 것이 많았다. 생정보학을 했기 때문에 마음만 먹으면 분석 못할 것이 없었다. 어떤 게놈 데이터도 아이디어만 있으면 분석이 가능했다. 그때는 프로그래밍 실력도 늘어서 일하는 것에 속도도 붙고 있었다. 나는 그때 게놈을 통한 생명현상 연구 및 조작이 가능해지고, 노화연구도 비약적으로 발전하리라고 예측했다.
그 당시에는 나는 ‘크레이그 벤터’ 박사를 몰랐다. 내가 분석했던 박테리아 게놈 두개를 해독한 사람인데도 그 사람이 무엇을 하는지 몰랐다. 나중에 크레이그 벤터의 자서전에서 나는 그 사람이 1995년의 미생물 게놈 해독성과를 바탕으로 인간게놈프로젝트를 자신의 손으로 먼저 끝을 내려는 계획을 가졌다는 것을 알게 된다. 게놈분야는 해독기술의 발달로 새로운 사람과 프로젝트를 쏟아내는 분야다. 앞으로 지구상의 수십만종의 생물 게놈이 다 밝혀질 때까지 흥미있는 학문분야로 남을 것이다. 벤터는 케임브리지 MRC센터의 생어박사 다음으로 게놈분야에 큰 영향력을 끼친 인물이다.
중복된 유전자 숫자를 연구하는 아이디어를 냈던 이유는, 생물들이 새로운 유전자를 만들 때 가장 먼저 하는 것이 유전자를 복사해 게놈에 가지고 있는 것인데, 이때 복사된 유전자가 유전변이를 축적하는 과정에서 새로운 기능을 가지게 된다는 가설이 있기 때문이었다. 그래서 MG의 게놈 유전자를 Perl프로그램으로 모두 추출해 DB를 만들어 MG의 유전자를 하나씩 비교해 나갔다. 이런 식으로 1995~1996년경 공개된 모든 게놈에서 얼마나 많은 유전자들이 하나만 있는지 아닌지를 확인하였다. 또 게놈 내부의 유전자뿐 아니라, 다른 게놈들이 가지고 있는 유전자들끼리도 비교했다. 한 게놈 내에서만 유전자를 비교할 때 중복돼 나오는 유전자를 Paralog라고 부른다. 이 말은 한 게놈에 병렬적으로 존재한다는 뜻이다. 한 유전자가 타 게놈에 발견되면, 이것을 Homolog라고 한다. 이것은 일종의 친척관계를 가지는 유전자란 뜻이다. 생정보학에서 Homolog와 Paralog를 비교하는 것은 중요하다. 유전자들의 기능을 연구하는데 쓰이기도 하고, 진화를 연구하는데도 쓰인다. MG는 작은 게놈이라 이들은 이러한 근원적인 유전자 연구에 매우 용이하다.
<본 칼럼은 2023년 8월 16일 울산매일신문“[박종화의 게놈이야기(21)]1995년 최초 박테리아 게놈 3개 공개되다”라는 제목으로 실린 것입니다.>