뛰어난 케임브리지의 연구환경과 시설 덕에, 나는 효율적으로 연구를 할 수 있었다. 케임브리지는 과학자의 천국이다. 하버드, 미국서부, 독일, 유럽보다도 더 뛰어난 과학 문화와 학풍을 가지고 있다. 그래서, 케임브리지에선 시대를 바꾸는, 혁명을 일으키는 학문발전이 있어왔다. 과학이 기술화 되면서, 점점 대형 인프라 위주의 미국과학기술에 점차 밀리는 경향이 있다. 그러나, 창조적인 혁신은 앞으로도 케임브리지에서 많이 일어날 것이다. 자연히 내 일의 효율도 높았다. 그런데, 펄(Perl)로 프로그래밍을 하다 보면, 계속해서 반복적으로 비슷한 일을 많이 하게 된다. 예를 들면, 한 유전자의 서열을 단백질로 바꿔, 3차원 구조가 있는지를 검색하고, 3차원 좌표를 찾아와서, 그 좌표에다가 내가 연구하던 다른 단백질의 서열을 정렬시켜서, 실꿰기(threading)란 알고리듬을 돌린다. 그 결과치를 에너지 함수에 넣어서, 3차원 구조의 정확도를 조사한다. 그런데, 방금 말한 이 작업을 한개가 아니라 1만개의 단백질에다 하는 게 문제다. 또, 게놈연구를 위한 프로그래밍을 하다 보면, 각각의 작업이 조금씩 다르기도 해서 까다롭다. 자연히, 프로그래머의 미덕인 게으름의 원칙에 따라, 프로그래밍을 최소화 하면서, 최대한의 자동화를 하는 방법이 필요하게 된다.
생정보학 프로그래밍은 일반 프로그래밍보다 더 어렵고, 복잡한 문제를 다루는 경우가 많고, 더 많은 생각을 해야 하는 경우가 많다. 또, 아주 빨라야 한다. 그래서, 대부분의 생정보학 전문가들은 문제해결에 있어서, IT 프로그래머보다도 더 복잡한 것을 잘 한다. IT 프로그래머처럼 정형화되거나, 특화하기 보다는, 밥먹고 자는 것 까지도 프로그래밍할 정도로 잡다한 것을 프로그래밍한다. 그렇다 보니, 코드(프로그램 소스)들이 지저분한 경우가 많고, 재활용이 어려운 경우가 많다.
팀 허버드도 그런 지저분하지만 빠른 프로그래밍을 하는 연구자이다. 나는 팀보다도 게으른 편이라, 같은 일을 두번하는 것을 아주 싫어했다. 어릴 때 같은 영화를 두번 보지 못했고, 책도 두번 읽는 것을 싫어했다. 같은 일 반복하는 게 제일 싫었다. 이런 성향 때문에, 내가 만든 모든 프로그램을 일반화시켜 재활용하는 방법을 찾기 시작했다. 그것이 1994년말 1995년초에 나온 Bioperl이다. 바이오펄은 게놈과 생정보학 전반에 많은 프로그램을 재활용하기 위해 만든 펄 모듈에서 시작했고, 지금은 매우 큰 국제 프로젝트가 돼있다.
바이오펄은 생명을 연구하는 모든 것을 정보처리적으로 하고, 그것에 필요한 운영체제, 컴퓨터하드웨어, 미들웨어, 응용 소프트웨어 등 모든 것을 양파껍질 같은 층으로 분리를 하고, 체계화해, 효율성을 올리는 것을 최종 목표로 했다. 아래의 ‘생정보학 세포’라는 그림은 내가 유럽생정보학연구소(EBI)에 연구원으로 있을때 어느 학회에서 발표한 그 개념을 정리한 것이다.
Bioperl이후, 1995년 팀의 두 번째 학생이자 나의 첫 여자친구였던 ‘아스트리드 라인하르트’가 왔을 때, 바이오자바가 만들어졌다. 그 뒤, 바이오파이선 등을 만들었지만, 나는 펄만을 썼기 때문에, 내가 더 이상 관여하지 않았고, 내 후배인 매튜 포콕 등 다른 사람들이 주도적으로 하도록 지원해줬다.
큰 프로젝트는 결코 어느 누구 한사람의 비젼이나, 노력으로 되는 것이 아니다. 바이오자바도 상당히 성공적인 프로젝트가 됐다. 바이오펄, 바이오자바, 바이오파이선 등은 케임브리지의 MRC 센터의 개방적인 과학방법에 입각해, 그 당시 확대되고 있던, 오픈소스 등과 병행해 성장했다. 내가 바이오펄에서 사용했던 openfree (열리고 자유로운) 철학은 팀 허버드의 개인적 성향, MRC 센터의 개방적 과학, 오픈소스(open source), 쉐어웨어(shareware), 프리웨어(freeware)등의 환경에서 발전했다. 나는 그 무렵, bioperl.com 과 bioperl.net을 가지고 있었는데, bioperl.org 를 등록하지 않았었다. 당시, 바이오펄 메일링 리스트의 참여자들 사이에서 내가 bioperl.org를 등록하지 않았다는 소문이 돌았고, 지금 미국에서 Bioteam사를 운영하는 크리스 닥디지안(Chris Dagdigian) 이 등록을 하게 됐다. 나는 크리스가 그 당시 도메인 관리에 관심이 있어 그가 등록하리란 것을 예상했었다. Biojava.org도 마찬가지였다.
<본 칼럼은 2023년 8월 8일 울산매일신문 “[박종화의 게놈이야기(20)] 바이오펄과 각종 바이오 도메인들”라는 제목으로 실린 것입니다.>