서열의 일반적 정의는 ‘순서’를 가진 문자의 나열이다. 서열 (sequence)은 생명현상에서 가장 중요하다. 순서가 없으면 서열이 아니고, 서열이 없으면 우리가 아는 지구상의 생명체의 정보처리는 불가능하다. 막스 퍼룻쯔 박사는 단백질의 서열과 구조를 연구하면서 단백질의 서열에 1차 구조(Primary structure)라는 이상한 이름을 달았다.
서열을 일종의 구조라고 정의를 한 것이다. 지금도 생화학에서는 단백질 서열을 1차 구조라고 한다. 이것의 의미는 1차원적인 서열 안에 실제 있는 것은 구조라는 것이다. 실제로 많은 수의 단백질 1차 구조는 세포 내에서 3차원 단백질로 자동적으로 접히는데 필요한 모든 정보를 가지고 있다.
서열이 바뀌면, 변이와 변화(Sequence variation)가 일어난다. 게놈상의 서열이 어떤 식으로든 바뀌면 생명현상에서 변이가 일어났다고 한다. 염기 A가 G로 바뀌면 치환이다. 염기 3개가 하나의 아미노산으로 번역되기 때문에 이러한 치환은 단백질의 아미노산의 서열을 바꿀 수도 있고 그렇지 않을 수도 있다. A가 아예 빠져 버리면 뒤쪽 서열 전체의 순번이 바뀐다. 이 경우, 아미노산 하나 때문에 수십, 수백 개의 단백질이 바뀔 수 있다. 또 새로운 염기가 중간에 들어가서(insertion) 서열을 바꿀 수도 있다. 이 경우도 빠진 경우(deletion) 처럼 큰 영향을 준다. 따라서, 게놈을 연구하여 디자인하는 합성게놈학(synthetic genomics) 같은 것은 게놈의 서열을 컴퓨터로 어떻게 디자인 하는가가 관건이다. 결국, 컴퓨터의 소스 코드처럼 게놈의 소스코드도 치환하고 넣고 빼고 하는 과정을 거침으로서, 생명체라는 애플리케이션의 기능을 조절하게 된다. 그래서, 세포는 게놈을 잘 관리하고, 문제가 없도록 여러 종류의 효소를 만들어서, 서열관리를 하고 있다. 게놈 서열이 잘못 바뀌면, 암이 생길 수 있다. 혹시라도 잘못된 서열이 생겨 전달되면, 몸 속의 세포가 실수를 하고 병이 생길 수가 있기 때문이다.
단백질 서열을 3차원 분자구조로 보면, 매우 비슷한 모양을 하고 있다. 조금은 다르지만, 근본적으로는 같다는 것이다. 이것이 유명한 단백질 서열과 구조의 문제이다. 나의 또 다른 지도교수인 싸이러스 초씨아(Cyrus Chothia) 와 독일의 크리스 산더(Chris Sander) 같은 초기 생물리학자들이 이것을 밝히고, 논문을 1970년 80년대에 발표를 했다. 그러면 단백질의 서열이 얼마나 많이 변해야 다른 3차원 구조가 될까? 대략 정렬된 서열들의 동일성이 40% 이하로 떨어지면, 3차원 구조도 바뀌는 단백질들이 생겨난다. 그래서 이 30%~40% 정도 되는 구간을 새벽(Twilight) 영역이라고 한다. 사람들이 관심을 가졌던 것은 어떻게 단순한 서열정보만으로도 3차원 단백질이 접히는가인데, 단백질 서열 하나만 가지고, 컴퓨터를 써서 모든 가능한 3차원 구조를 이리 저리 종이접기 하듯 하면, 수년 혹은 수십년 간 컴퓨터를 돌려야 할 만큼 시간이 많이 걸린다.
연구자들은 다양한 서열을 가지지만, 한가지의 구조를 꼭 갖는 것을 여러 종류의 단백질 서열 정렬 알고리듬의 정확도를 계산하는 지표로 쓴다. 이것이 1994년 나의 지도교수 팀과 내가 한 일이었다. 이 비교지표가 생김으로 해서 생명정보학 분야에 모든 종류의 단백질 서열을 벤치마크하고, 개선점을 찾는 작업이 가속화 되었다. 이때 만들어진 것이 PDB40J 데이터베이스였다.
유전자 족보 단백질이든, DNA든, 모든 서열은 족보를 가지고 있다. 다르게 말하면, 모든 서열은 조상이 누구인지를 보전하고 있다. 같은 조상을 가진 단백질이나 유전자는 ‘상동성’이 있다고 한다. 유전학 중에서 진화를 연구하는 것은 서열의 족보연구라 해도 과언이 아니다. 유전자 상동성은 형태의 상동성으로 표현된다.
<본 칼럼은 2023년 5월 30일 울산매일신문 “[박종화의 게놈 이야기 (14)] 서열이란 무엇인가?”라는 제목으로 실린 것입니다.>