Press release

2019년 3월 18일(월) 조간
온라인은 3월 17일(일) 12시부터 보도해 주시기 바랍니다.

공공 빅데이터로 암 잡는 마이크로RNA 찾아낸다

UNIST 남덕우 교수팀, 유전자 발현 빅데이터 분석 알고리즘 개발
바이클러스터링 기법 통해 유방암 억제 마이크로RNA와 경로 발굴

[연구그림] 유전자 발현 빅데이터로 마이크로RNA 발굴하는 바이클러스터링 알고리즘

“데이터는 이미 엄청나게 쌓여 있습니다. 어떤 분석 전략을 세우느냐에 따라 얼마든지 중요한 발견을 할 수 있고, 세포와 질병에 대한 이해도 높일 수 있어요.”

UNIST(총장 정무영) 생명과학부의 남덕우 교수팀은 유전자 발현 빅데이터분석을 통해 암을 억제하는 마이크로RNA*와 이와 관련된 세포 신호조절 경로를 발굴했다. 마이크로RNA는 19~23개 정도의 짧은 염기로 이루어진 RNA 분자로서, 여러 유전자의 발현을 억제한다. 이를 통해 다양한 세포 활동과 암과 당뇨 등의 만성질환에 핵심적인 역할을 한다.

남 교수팀은 15년 이상 차곡차곡 쌓인 유전자 발현(gene expression)** 공공 데이터베이스를 활용하는 새로운 분석 전략을 개발했다. 연구팀은 이 데이터베이스에서 각종 질병과 조직 특성, 세포 분화, 약물처리 등 다양한 세포 조건에 따른 5000여 개의 데이터 세트를 가공해 ‘유전자 발현 빅데이터’를 수집했다. 또 마이크로RNA의 염기서열에 기반한 타깃 유전자(target gene)*** 집단의 정보를 함께 분석했다. 그 결과, 459개의 인간 마이크로RNA에 의한 조절 네트워크를 예측하는 빅데이터 분석 시스템(BiMIR****)을 구축할 수 있었다.

*마이크로RNA: 19~23개 정도의 짧은 염기로 이뤄진 RNA 분자로 세포질에 존재한다. 여러 유전자의 발현을 억제함으로써 발생, 분화, 세포주기 및 암, 당뇨 등의 만성질환에서 핵심적인 역할을 수행하고 있다.

**유전자 발현(gene expression): DNA에 담긴 유전 정보가 메신저RNA로 옮겨져 발현되는 현상으로, 이는 단백질 합성을 위한 초기 과정에 해당한다. 각 유전자가 어떤 조건에서 얼마나 많이 발현되는지는 15년 이상 연구돼 엄청난 양의 데이터베이스(유전자 발현 빅데이터)로 구축됐다.

***타깃 유전자(target gene): 마이크로RNA를 이루는 염기서열과 결합할 수 있는 유전자로, 마이크로RNA의 조절을 받는 대상 유전자를 뜻한다.

****BiMIR: 마이크로RNA 459개가 어떤 유전자들을 조절하고, 어떤 세포 조건에서 작동하는지를 분석해 정리한 데이터베이스. http://www.btool.org/bimir_dir/

특히 ‘바이클러스터링(Biclustering)’이라는 양방향 군집화 분석을 통해, 마이크로RNA가 조절하는 ‘유전자 집단’과 관련 ‘세포 조건’을 동시에 제시해주는 새로운 접근법을 개발했다.

남덕우 교수는 “유전자 발현 빅데이터에 바이클러스터링 방법을 적용하면, 줄기세포나 특정 질병 등 다양한 세포 조건에서 일어나는 마이크로RNA 조절 네트워크를 더 정확하게 발굴할 수 있다”며 “가령 유방암이 어떤 유전자들의 발현과 연결돼 있고, 이들 유전자를 억제하는 마이크로RNA가 무엇인지 예측하게 되는 것”이라고 설명했다.

연구진은 실제로 유방암 발달에 중요한 신호전달 경로(PI3K/Akt signaling pathway)miR-29 등 적은 수의 마이크로RNA들이 집중적으로 억제 가능함을 발견했다. 이는 박지영 UNIST 생명과학부 교수와 공동연구해 실험으로도 검증됐다.

남덕우 교수는 “이번에 발견한 것은 유방암에서 miR-29가 저하돼 PI3K/Akt 신호전달 경로를 ‘조절하고 있지 않음’”이라며 “miR-29의 발현을 높여주면 해당 경로의 타깃 유전자들과 경로 활성도가 현저히 저하되는 걸 실험적으로 확인했다”고 밝혔다.

또한 미만성 거대 B세포 림프종이라는 질병의 발달을 억제하는 마이크로RNA도 예측해내 이 기법을 다른 여러 질병으로 확장할 수 있음을 보였다. 남 교수는 “BiMIR 데이터베이스를 통해서 누구나 마이크로RNA, 질병 등 세포 조건, 타깃 유전자 등에 대해서 마이크로RNA 조절 네트워크를 검색할 수 있다”며 “현재는 마이크로어레이 데이터 기반으로 만들었는데, RNA 시퀀싱 데이터도 충분해지면 더 다양한 세포 조건에서 더 정확한 네트워크 예측이 가능하다”고 덧붙였다.

이번 연구는 윤소라 UNIST 생명과학부 박사가 제1저자로 참여했으며, 포스트게놈 다부처유전체사업 및 선도연구센터에서 지원받았다. 연구결과는 영국 옥스퍼드대학 출판사에서 발행하는 저명한 생물학 저널 뉴클레익 에시드 리서치(Nucleic Acids Research, IF: 11.56)’ 3월 1일자 온라인판에 게재됐다. (끝)

* 논문명: Biclustering analysis of transcriptome big data identifies condition-specific microRNA targets

자료문의

대외협력팀: 장준용 팀장, 박태진 담당 (052)217-1232

생명과학부: 남덕우 교수 (052)217-2525

  • [연구진]-빅데이터로-질병-조절-마이크로RNA-발굴-시스템을-개발한-UNIST-연구진_왼쪽부터-김진환-연구원,-남덕우-교수,-윤소라-박사,-하이-응우옌-박사
  • [연구그림] 유방암에 중요한 신호전달 경로와 이를 조절하는 마이크로RNA
  • [연구그림] 유전자 발현 빅데이터로 마이크로RNA 발굴하는 바이클러스터링 알고리즘
  • 교수님 프로필
 

[붙임] 연구결과 개요

1. 연구배경

인간 유전체 서열이 해독된 후 ‘마이크로어레이(Microarray)’* 기술이 발전하면서 특정 조건에서 수만 개의 유전자가 발현하는 현상을 동시에 측정할 수 있게 됐다. 이 기술이 발전하면서 유전체 연구가 폭발적으로 성장했고, 지난 15년 넘는 시간 동안 백만 건을 훌쩍 넘는 마이크로어레이 데이터가 공공 데이터베이스에 저장됐다. 이 자료들은 누구나 접근해 활용할 수 있다. 근래에는 마이크로어레이 대신 ‘RNA 시퀀싱(RNA sequencing)’**이라는 발전된 기술이 도입됐지만, 현재까지는 축적된 자료가 많은 마이크로어레이를 활용한 유전자 발현 정보가 월등하다.

*마이크로어레이(microarray): 수천 개의 각기 다른 유전자의 발현 정도를 DNA 조각들을 사용해 한번에 파악할 수 있는 실험 방법. DNA 마이크로어레이는 정해진 지점마다 수천 개의 점이 인쇄돼 있는 현미경 슬라이드를 의미하며, 각각의 점에는 각기 다른 DNA의 염기서열 혹은 유전자가 들어 있다. 이러한 현미경 슬라이드를 '유전자 칩' 또는 'DNA 칩'이라고 부른다.

**RNA 시퀀싱(RNA-seq): 전사체(transcriptome)을 분석해 유전자 발현의 차이를 확인하는 분석법. 전사(Transcript)에서 번역(Translation)을 통해 단백질이 된다는 센트럴 도그마(central dogma)에 입각해 전사 수가 많을수록 발현이 많다고 판단해 계산하는 방법이다.

이번 연구에서는 누구나 활용 가능한 (마이크로어레이 기반) 유전자 발현 데이터를 대규모로 수집해 빅데이터 분석 시스템을 구축했다. 이 시스템을 이용하면 특정한 질병이나 조직이 가진 다양한 세포 조건에서 일어나는 조절 네트워크를 추정할 수 있다. 특히 세포질에서 유전자의 발현을 억제하는 조절자인 마이크로RNA’ 네트워크에 주목했다. 이 네트워크는 발생과 분화, 세포주기, 암, 당뇨 등의 만성질환과 각종 세포 내 프로세스에서 핵심적인 역할을 한다.

마이크로RNA는 19~23개 정도의 짧은 염기서열로 구성된 RNA 분자로 동물과 식물, 바이러스의 세포에 존재한다. 이 물질은 발현된 유전자(메신저RNA)의 특정 서열을 인식해 결합함으로써 수십에서 수백 개 또는 그 이상의 유전자 기능을 동시에 억제하는 기능을 수행한다. 인간에게는 수천 개의 마이크로RNA가 존재한다고 알려졌으며, 수백 개 정도의 마이크로RNA 기능은 실험을 통해 밝혀졌다. 인간 유전자의 60% 이상이 마이크로RNA에 의해 조절되며 이는 세포주기와 세포 분화, 그리고 암을 비롯한 다양한 질병에 관여한다.

각각의 마이크로RNA가 결합할 수 있는 서열을 가진 유전자들은 수십에서 수천 개로 다양하다. 이때 주어진 세포 조건에 따라서 발현되는 유전자들이 다르다. 예를 들어 암이나 당뇨, 알츠하이머 등이 발병한 세포에서 유전자 발현이 달라질 수 있다. 또 어떤 조직의 특징이나 처리한 약물 등의 영향도 유전자 발현에 변화를 줄 수 있다. 결론적으로 보면, 세포 조건에 따라 실제로 마이크로RNA의 조절을 받는 유전자들도 달라진다. 따라서 세포 조건에 특이적인 마이크로RNA의 조절 대상 유전자(target)를 규명하는 일은 다양한 마이크로RNA의 기능을 밝히기 위한 핵심과제라고 할 수 있다.

특정한 마이크로RNA의 조절 대상 유전자들은 동시에 조절 받는다. 따라서 이 유전자들은 서로 유사한 발현 패턴(pattern)을 보인다. 이 점을 이용해 대량의 유전자 발현 데이터를 수집하고, 목표 유전자들의 후보를 한 덩어리로 묶어서 분석하는 ‘군집화 분석’을 사용했다. 이 방식을 이용하면 실제로 마이크로RNA의 조절을 받는 목표 유전자 그룹을 더 정확하게 예측할 수 있다. 특히 이번 연구에서는 바이클러스터링(Biclustering)’*이라는 기법(그림A)을 적용해 세포 조건 특이적인 군집화 패턴을 발굴하는 알고리즘 및 분석 시스템을 개발했다.

그림A. 바이클러스터링 문제. 유전자 g와 세포 조건 c를 동시에 치환해 1로 가득한 블록을 찾는 문제다. 해당 블록에 포함되는 유전자들은 해당 세포 조건에서 동시에 발현되는 타깃 유전자들이다. 두 조건(bi)을 모두 만족하는 묶음(cluster)를 찾아낸다는 뜻에서 바이클러스터링이라는 이름이 붙었다.

*바이클러스터링(biclustering): 행렬 (matrix)에서 행과 열을 동시에 군집화하는 데이터 마이닝 기법이다.

2. 연구내용

이 연구를 위해 공공 마이크로어레이 유전자 발현 데이터베이스에서 5000여 개의 데이터 세트를 내려받았다. 그런 다음 수개월에 걸쳐 각 세트를 실험군 또는 대조군으로 분류해 ‘5000여 개의 발현 변화(fold change) 데이터로 재가공했다. 즉, 2만여 개의 인간 유전자 각각이 5000여 가지의 서로 다른 세포 조건에서 어떻게 발현됐는지 알 수 있는 빅데이터(유전자 발현 빅데이터)를 구축한 것이다.

459개의 인간 마이크로RNA에 대해서는 결합서열을 예측하는 데이터베이스 정보를 통합하고, 마이크로RNA 각각이 조절하는 유전자 후보들을 선별했다. 이러한 후보 유전자 목록에 대해 ‘유전자 발현 빅데이터’를 바이클러스터링 기법으로 분석했다. 그 결과 특정 마이크로RNA어떤 세포 조건들에서 어떤 유전자들을 동시에 조절하는지에 대한 예측을 얻게 된다. 세포는 유전자들의 집단적인 발현으로 조절되는 경향이 강하므로 마이크로RNA의 조절 대상 유전자도 군집화 분석을 통해 더 정확하게 예측할 수 있다.

그림B. 점진적 확장 바이클러스터링 알고리즘. 유전자 발현 빅데이터(a)와 마이크로RNA의 서열을 기반으로 타깃 유전자를 예상한 빅데이터(b)를 조합해, 세포 조건에 따라 발현하는 유전자들을 예측하는 과정.

특히 이번 연구에서는 일반적인 군집화 분석이 아닌 바이클러스터링 분석 알고리즘(그림B)을 새로 개발했다. 이 알고리즘은 마이크로RNA의 조절 대상 유전자들뿐 아니라, 이 유전자들이 어떤 세포 조건에서 조절되는지에 대한 예측도 함께 제공한다.

이 알고리즘은 ‘시드 바이클러스터(seed bicluster)’에 밀도가 높은 열과 행을 경쟁적으로 붙여나가고 삭제하는 과정을 반복하는 점진적인 확장 방식으로 개발됐다. 그 결과 459개의 인간 마이크로RNA에 대해 총 3만 개에 가까운 고품질의 바이클러스터들을 발굴할 수 있었다. 이 바이클러스터들로 BiMIR라는 데이터베이스(http://www.btool.org/bimir_dir/)를 구축해 누구나 ‘마이크로RNA’, ‘세포 조건’, ‘타깃 유전자’에 대해 쉽게 검색하고 연구할 수 있도록 했다.

이러한 바이클러스터링 분석의 예측 정확도는 실험적으로 알려진 유전자들을 이용해 검증했다. 이때 정확도는 일반적으로 활용되는 결합서열 중심의 예측보다 평균 17% 정도 향상됐다. 더욱이 예측한 타깃 유전자 중 단백질 상호작용이 알려진 타깃 유전자들만 선별할 경우 최대 32%까지 정확도를 높일 수 있었다. (그림C)

그림C. 바이클러스터링 및 네트워크를 이용한 마이크로RNA 타깃 유전자 예측 정확도 측정.

이번 연구에서는 특히 유방암미만성 거대 B세포 림프종에서 발현이 증가한 바이클러스터들을 분석했다. 그 결과 miR-29를 포함한 다섯 종의 마이크로RNA가 조절하는 유전자들이 유방암 진행에 중요한 역할을 하는 ‘PI3K/Akt 신호전달 경로(pathway*)’에 집중적으로 분포하고 있음을 밝혀냈다. 실제로 miR-29의 발현을 증가시켰을 때 이 경로에 포함된 9개 유전자의 발현과 경로의 활성도가 현저히 감소함을 UNIST 생명과학부 박지영 교수가 진행한 실험으로 확인했다. 아울러 이러한 다섯 종의 마이크로RNA의 발현량이 환자 생존에 독립적인 영향을 미치는 요인임을 생존 분석을 통해 확인할 수 있었다. (그림D)

그림D. (a) 유방암에서 PI3K/Akt 신호전달 경로 및 바이클러스터 타깃 분포.(붉은 테두리의 유전자). (b) miR-29 생존분석 결과. (c-d) 9개 타겟의 실험 검증 결과.

*생물학적 경로(pathway): 세포 내에서 생체 분자들이 다양한 세포 활동을 위해 상호작용하는 일련의 과정을 나타낸다. 신진대사, 유전자 발현 조절, 세포 신호 전달 등이 대표적인 생물학적 경로에 포함된다.

3. 기대효과

이번 연구에서는 ‘공공 유전자 발현 데이터베이스’를 이용해, ‘수백 종의 인간 마이크로RNA의 조절 대상 유전자를 예측할 수 있는 시스템’을 구축했다. 특히 여러 가지 질병이나 조직별 특징, 약품처리, 분화 등 ‘다양한 세포 조건’에서 마이크로RNA가 조절 대상 유전자에 영향을 줄 수 있는지를 파악할 수 있다는 게 큰 특징이다.

이번에 개발한 시스템은 연구자가 관심을 가지는 마이크로RNA나 실험조건, 질병에 대해서 또는 질병에 대해 어떤 마이크로RNA가 어떤 세포 조건에서 어떤 타겟 유전자들과 경로를 조절하는지에 대해 예측 가능한 효과적인 도구다. 이를 활용하면 마이크로RNA와 관련 질병 연구에 유용한 유전자 목록을 제공할 수 있다.

이러한 접근 방법은 마이크로RNA 외에 전사인자와 RNA 결합단백질 등 다른 결합서열 특이적인 조절자들의 대상 예측에도 활용할 수 있다. 앞으로는 더욱 확장된 조절 네트워크 예측 시스템을 구축할 예정이다.

 

[붙임] 그림 설명

그림1. 마이크로RNA 발굴하는 바이클러스터링 알고리즘 모식도: 세포 조건에 따른 유전자 발현 빅데이터(a)’와 마이크로RNA 서열을 기반으로 타깃 유전자를 예측하는 ‘결합서열 빅데이터(b)’를 조합한 마이크로RNA 프로파일을 만든다. 여기에는 하나의 마이크로RNA가 영향을 줄 수 있는 유전자들과 각 유전자가 놓일 수 있는 세포 조건이 가로세로 축에 놓인다.(c) 이 데이터 세트를 이용해 마이크로RNA가 영향을 주는 유전자와 세포 조건을 동시에 만족하는 경우만 ‘1’로 표기한다.(d) 1로 표시된 칸으로만 이뤄진 덩어리(바이클러스터)를 구하면, 암 같은 질병에 관여하는 유전자와 마이크로RNA를 찾아낼 수 있다.

그림2. 바이클러스터링 및 네트워크를 이용한 마이크로RNA 타깃 유전자 예측 정확도 측정: (a) 대상 마이크로RNA를 예측하는 민감도(세로축)를 보여주는 그래프. 왼쪽 상단에 배치될수록 민감도가 높다. (b) 상호작용하는 단백질의 수(가로축)에 따른 예측 민감도(세로축)를 나타내는 그래프. ©기존 결합서열 분석으로 예측한 경우(검정색)보다 결합서열과 바이클러스터링을 함께 활용한 경우(파란색) 예측도가 17% 높아졌고, 상호작용하는 단백질만 골라서 결합서열과 바이클러스터링을 함께 활용한 경우 예측도는 32%까지 향상됐다.

그림3. 유방암 유발 신호전달경로(pathway), PI3K/Akt 에 관여하는 마이크로RNA 발굴. (a) 살색은 세포의 경계 부분을 나타낸다. 유방암은 붉은 테두리로 표시된 유전자의 발현과 관련이 있는데, 이번에 개발한 알고리즘을 활용해 이들 유전자들의 발현을 조절하는 마이크로RNA를 정확하게 발굴했다. (b)는 유방암 유발 유전자와 관련이 깊다고 예측된 마이크로RNA 중 하나인 miR-29의 발현 여부와 환자 생존의 상관관계를 보여주는 기존 연구결과다. 그래프에서는 miR-29 발현이 높을수록 유방암 환자의 생존률이 높게 나타나 이 마이크로RNA가 작동하면 유방암이 활발해진다고 해석할 수 있다. (c-d) miR-29의 조절 대상인 유전자 9개의 발현량을 실험을 통해 검증한 결과다. 이 마이크로RNA가 켜진 경우 해당 유전자 발현량이 줄어든 것을 보여준다. miR-29가 대상 유전자 9개를 조절한다는 것을 확인시켜주는 결과다.