나는 팰린드롬(Palindrome)도 연구를 했었는데, 그것은 RNA나 DNA 바이러스의 게놈은 대칭적인 3차원 구조를 가지고 있을 거라는 추측에 의해서였다. 게놈도 하나의 거대한 분자로, 평형을 이뤄져야 하기 때문에, 3차원구조도 대칭적일 것이라고 추측했다.
이것을 바탕으로 나는 게놈은 프랙탈(Fractal)일 것이라고 추측했다. 프랙탈이 돼야만 에너지가 안정화되고, 서열의 대칭성·구조의 대칭성이 보장된다고 생각했다. 나는 DNA 코드를 연구했는데, 그것에서 묘한 규칙이 있음을 발견했다. 그리고, 염기가 아미노산으로 변환되는 것은 마치 주역이나 암호코드의 표처럼 일정한 그러나 숨겨진 수학적 관계에 의해 정해진 것이라는 것을 알게 됐다.
1994년 MRC센터에 갔을 때, 팀 허버드는 미국의 존 몰트교수와 함께 단백질 경진대회를 준비하고 있었다. 이것을 CASP이라고 불렀다. 이것은 단백질의 서열만 가지고, 생정보학자들이 3차원 구조를 어떤 방법을 쓰던 맞춰내야 하는 것이었다. 이때 팀 허버드가 사실상 대회의 모든 실무를 수행했다. 대회 개최에 필요한 웹서버 모두를 만들어 등록하고, 서열을 다운로드 받아 연구실에서 예측한 것을 어떻게든 양식에 맞춰 다시 서버에 올리고 하는 일이었다.
이때 팀 허버드가 소개해준 Perl이라는 프로그래밍 언어를 배웠다. 내가 온지 1주일 동안 Perl을 안배우고 있자 팀이 와서 책을 내 책상 위에 놓으면서 언어를 배우라고 했다. 그 책이 ‘Learning Perl’ 이었다. 랜돌 슈워츠가 쓴 책이었다. 내가 하는 게 답답했던지 팀이 직접 책을 던져 준 것이었다.
나는 Perl 을 가지고, 단백질 3차원 구조에 필요한 프로그램을 만들어 나갔다. 나는 숀 에디가 만든 HMMER를 이용하거나, 기존의 FASTA, SSEARCH, BLAST등의 간단한 서열 정렬 알고리듬을 활용해 구조인식(fold recognition) 이란 것을 했다.
3차원 단백질 구조를 찾는 방법은 여러 가지 인데 구조 인식이 효과적이었다. 3차원 구조를 완전히 처음부터 예측하는 ab initio 방법은 수학·물리학 에너지 함수를 이용하고, 수퍼컴퓨터를 써도 시간이 너무 많이 걸렸다. 그때 대략 10여개의 단백질 구조를 팀과 내가 한 그룹을 이뤄 예측을 했다. 최종적으로 제출한 것은 9개였던 것으로 기억한다.
순전히 서열 정보만 가지고, 기존에 알려진 3차원 구조 데이터베이스에서, 가장 맞을 것 같은 구조를 선정해야만 했다. 굉장히 재미 있지만, 데드라인이 있어서 아주 급박하게 일을 했다. 그러다 보니, 그 짧은 몇달 사이에 다른 사람들은 몇년 걸려 배울 것을 배운 것 같다.
만약 한 서열에 맞는 3차원 구조를 인식했다고 하면, 그 다음에는 3차원 구조를 모델링해서 3차원 좌표 (x·y·z)를 만들어 프로그램을 짜서, 전송해줘야 했다. 그때 나는 알렉스 베이트만 (Alex Bateman)이란 친구와 이런 작업에 대해 종종 이야기를 했다. 알렉스는 나보다 대략 4살 정도 어린 케임브리지 학생이었고, 우연히도 같은 키즈 (Caius) 대학 학생이었다. 알렉스는 싸이러스 초씨아의 신입학생이었다. 나와 같은 년도에 박사를 시작한 것이다. 지금 알렉스는 생어연구소의 연구실장이 돼서 세계에서 가장 정확한 단백질 데이터베이스인 Pfam을 운영하고 있다.
그 당시 내가 알렉스에게 한 말이 있다. 수십만개나 되는 단백질 구조와 서열을 모두 모아서 그것들의 도메인을 완벽히 정리한 DB를 만들어 정보관리를 한다면 나중에 매우 중요한 업적이 될 것이라고. 나는 그런 종류의 꼼꼼한 일보다는 큰 발견과 세상을 확 바꿀 발견과 발명에 관심이 더 많았다.
<본 칼럼은 2023년 7월 18일 울산매일신문 “[박종화의 게놈이야기-18] 팰린드롬과 프랙탈”라는 제목으로 실린 것입니다.>