|
|
|
한국인에 특화된 ‘제2형 당뇨’ 발병 예측을 위한 기계학습 모델이 개발됐다. UNIST(총장 이용훈) 산업공학과 이정혜 교수팀과 고신대학교복음병원 가정의학과 강지훈 교수팀은 대규모 한국인 코호트를 바탕으로 제2형 당뇨 발병 예측 성능을 높인 기계학습 모델을 개발했다. 이들은 한국인에 특화된 다유전자 위험 점수(Genome-wide Polygenic Risk Score, gPRS)를 개발하고, 여기에 인구통계학적 정보와 임상 정보, 대사체 정보를 함께 활용했다. 당뇨는 30세 이상의 한국인 6명 중 1명이 앓을 정도로 흔한 질병이다. 뇌졸중이나 심혈관계 질환 등의 합병증을 유발하는 위험한 만성질환이라 사전 예방이 중요하다. 당뇨 발병에는 식생활을 포함한 생활 습관, 유전적 조건 등이 중요하며, 이런 정보를 토대로 한 예측 모델 연구가 꾸준히 진행 중이다. 기존의 당뇨 발병 위험예측 모델 연구는 주로 서양인 집단을 대상으로 했다. 동양인을 대상으로 해도 키와 몸무게, 가족력 같은 인구통계학적 정보나 당화혈색소(HbA1c) 수치, 콜레스테롤 수치와 같은 임상 정보를 위주로 이용했다. 이렇다 보니 한국인에 특화된 유전적‧환경적 요인까지 반영한 당뇨 예측에는 한계가 있었다. 이에 연구진은 한국인에 특화된 정보를 활용한 예측 모델 개발에 도전했다. 질병관리본부 국립보건원에서 수집한 한국인유전체역학조사사업(KoGES)의 대규모 코호트를 바탕으로 삼은 것이다. 이 코호트는 한국인에게 흔히 발생하는 당뇨, 고혈압, 비만, 대사증후군 등의 만성질환 연구를 위해 2001년부터 추적‧수집된 자료다. 연구진은 인구통계학적인 정보, 임상 정보에 유전 정보와 환경 정보를 더해 종합하면서 당뇨 발병 예측 성능을 높였다. 제1저자인 한석주 UNIST 산업공학과 박사과정 연구원은 “제2형 당뇨 발병에 관한 유전 정보는 ‘다유전자 위험 점수’를 한국인 유전자 특성에 맞게 새로 계산해 예측 모델에 활용했다”며 “환경 정보는 ‘대사체’로 반영해 유전 정보가 설명하지 못하는 정보를 상호보완했다”고 설명했다. 최종 개발된 제2형 당뇨 발병 예측 모델은 인구통계학적 정보만 활용한 경우보다 약 11퍼센트포인트(%p) 예측 성능이 높았다. 인구통계학적 정보와 임상 정보까지 활용한 경우에 비해도 약 4퍼센트포인트(%p) 이상의 향상된 예측 성능을 보였다. 공동 제1저자인 김수현 UNIST 산업공학과 박사과정 연구원은 “한국인 대상 코호트에서 인구통계학적 정보와 임상 정보를 얻고, 여기에 새로 개발한 다유전자 위험 점수, 대사체 정보 등을 더할수록 모델의 예측 정확도가 높아졌다”고 강조했다. 이번에 개발된 모델은 우리나라 국민에게 특화된 당뇨 발병 위험도를 파악하고, 발생 요인도 제공할 수 있다. 이 모델을 임상 현장에서 활용한다면 제2형 당뇨를 효과적으로 예방하고 대응할 수 있다는 게 연구진의 전망이다. 이정혜 교수는 “서양인 코호트 중심으로 진행되던 연구를 한국인 코호트로 바꾸어 접근한 것에 큰 의미가 있다”며 “아시아 집단의 코호트 데이터를 이용하는 다양한 후속 연구에도 활용될 수 있을 것”이라고 기대했다. 이번 연구는 의학 분야 최고 학술지인 란셋(The Lancet)의 자매지인 ‘이바이오메디슨(eBioMedicine)’에 공개됐다. UNIST의 ‘U-K Brand 육성사업(자유혁신연구)’과 한국연구재단의 ‘지역거점 혁신형 의사과학자 공동연구’에서 지원받았다. (논문명: Prediction of Type 2 Diabetes using Genome-wide Polygenic Risk Score and Metabolic Profiles: A Machine Learning Analysis of Population-based 10-year Prospective Cohort Study) |
|
[붙임] 연구결과 개요 |
1. 연구배경제2형 당뇨1)는 성인에게 발병하며, 주로 인슐린 저항이나 부족 등이 특징적으로 나타난다. 이 질환은 뇌졸중이나 심혈관계 질환 등의 합병증을 유발하는 위험한 만성질환 중 하나다. 이에 따라 당뇨 발병의 위험을 줄이면서 예방하기 위한 ‘건강 검진 코호트(cohort)5) 데이터’ 등을 활용해 ‘제2형 당뇨의 발병을 예측하는 다양한 모델’이 개발돼왔다. 제2형 당뇨는 식습관, 생활습관이나 비만 등의 신체적 상태로 인해 주로 발병한다. 그러나 일부는 유전 및 환경적 요인에 발병 위험이 있어 이러한 인자들을 복합적으로 모델링하는 것이 중요하다. 기존 연구들은 대부분 서양 인구 대상의 코호트 데이터를 활용했다. 이 때문에 한국인을 대상으로 구성한 코호트에 바로 적용할 경우 만족스러운 예측 성능이 확보되지 않거나, 의미 있는 요인을 분석하기 어려웠다. 따라서 제2형 당뇨 발병 예측을 위해 한국인의 특성을 반영한 코호트를 활용하면서도 인구통계학적, 임상적, 유전적, 환경적 요인을 복합적으로 반영해 높은 예측 성능을 확보할 모델 개발이 절실한 상황이다. |
2. 연구내용이번 연구는 한국인유전체역학조사사업(KoGES)4)을 통해 약 10여 년간 추적해 수집한 만성질환 코호트 빅 데이터를 활용해 ‘한국인에 특화된 제2형 당뇨 발병 예측을 위한 기계 학습 모델’을 개발했다. 이 과정에서 한국인 유전체 데이터를 활용한 유전체 연합 연구(Genome-wide Association Study, GWAS)를 새롭게 수행해, 제2형 당뇨 발병 위험에 대한 유전적 지표인 다유전자 위험 점수(Genome-wide Polygenic Risk Score, gPRS)2)를 개발해 추가 정보로 활용했다. 그 결과, 유전적 요인을 반영하는 gPRS가 실제로 한국인 코호트의 제2형 당뇨 발병 위험과 연관이 크다는 것을 입증했다. 연구진은 또 혈청 대사체3) 데이터를 추가로 활용해 환경적인 요인을 반영했다. 그 결과 대사체 정보가 유전적 요인과 더불어 제2형 당뇨의 발병 위험 예측 정확도를 추가로 높일 수 있다는 것도 발견했다. 다양한 요인을 고려한 빅데이터의 활용뿐 아니라, 랜덤 포레스트(Random Forest) 기반 기계 학습 모델을 구성해 당뇨 발병 예측 성능 및 재분류 성능을 높였다. 이를 통해 당뇨 발병 예측에 있어 각 요인의 영향을 파악해 모델의 해석력 또한 확보했다. 최종적으로 개발된 제2형 당뇨 발병 예측 모델은 단순히 인구통계학적 요인만 활용했을 때보다 다양한 요인들을 복합적으로 함께 활용하였을 때 최대 약 11퍼센트포인트(%p) 예측 성능이 향상됐다. |
3. 기대효과이번 연구에서는 한국인의 유전자 및 대사체 정보를 포함한 장기 추적 코호트 빅 데이터를 활용해 ‘예측력 높은 기계 학습 기반의 제2형 당뇨 발병 예측 모형’을 개발했다. 이 모델은 실제 임상 현장에서 의료진과 환자에게 당뇨 발병 위험 수준과 발생 요인을 동시에 제공해 질병을 효과적으로 예방하고 대응하는 데 활용될 것으로 기대된다. 또 이번에 분석한 결과를 통해 한국인에 특화된 유전 정보를 다유전자 위험 점수 형태로 구성하고, 마찬가지로 한국인에 특화된 대사체 정보를 당뇨 발병 위험 예측에 활용해 그 가치를 새롭게 보고한 점은 학계에서 의의가 크다. 이는 향후 아시아 집단의 코호트 데이터를 이용하는 다양한 후속 연구에 활용될 수 있을 것이다. |
[붙임] 그림설명 |
그림1. 한국인에 특화된 제2형 당뇨 발병 예측을 위한 기계 학습 모델 개발 개요한국인 대상 코호트(왼쪽)에서 추출한 한국인 특화 인구통계학적 정보(model 1), 임상 정보(model 2), 유전자 정보(model 3), 대사체 정보(model 4)를 점진적으로 추가하는 방식으로 여러 제2형 당뇨 발병 예측 모델을 개발했다. 정보가 추가됨에 따라 모델의 예측 정확도가 향상된다. |
[붙임] 용어설명 |
1. 제2형 당뇨(Type 2 Diabetes)당뇨는 신체가 인슐린을 생성하거나 효과적으로 사용하는 능력이 떨어질 때 발생하는 복잡한 만성질환이다. 제2형 당뇨는 유전적 및 환경적 요인이 복합적으로 영향을 미쳐 발병하는 질병으로 췌장의 베타세포가 인슐린을 분비하는 능력에 한계가 생겨 발생한다. 다양한 합병증이 초래될 위험이 있고 발병 시기가 점점 앞당겨지고 있어 꾸준한 관심과 예방이 필수적이다. |
2. 다유전자 위험 점수(Genome-wide Polygenic Risk Score, gPRS)유전체 연합 연구(Genome-wide Association Study, GWAS) 자료를 바탕으로 특정 표현형(또는 질병)에 대한 유전 인자의 예측 위험 점수를 계산한 것이다. |
3. 대사체(Metabolites)물질대사에 관여하거나 물질대사 과정에서 생성되는 물질. 세포 내에서 여러 가지 중요한 기능에 관여하고 있으며 세포의 생리적인 상태를 반영한다. 대사체는 유전학의 센트럴 도그마(Central dogma)에 따라 유전자로부터 만들어지는 단백질에 의해 수직적으로 영향을 받기도 하지만, 생활 습관이나 노화 등 환경적 요인에 의해서 더 많이 영향을 받는 것으로 알려져 있다. 즉, 유전적 요인과 환경적 요인의 특성을 모두 포함하고 있는 중요한 생체지표다. |
4. 한국인유전체역학조사사업(The Korean Genome Epidemiology Study, KoGES)한국인에게 흔히 발생하는 당뇨, 고혈압, 비만, 대사증후군, 심혈관질환 등 만성질환 연구를 위해 질병관리본부에서 2001년부터 시작한 대규모 코호트 사업이다. |
5. 코호트(cohort)이는 초경량,역학 연구에서 쓰이는 용어로, 어떤 특성을 공유하는 많은 사람의 모임을 일컬는다.장기 추적을 통해 특정 요인에 노출된 집단과 노출되지 않은 집단의 질병 발생 정보를 비교하여 질병 원인을 규명하는 연구에 주로 이용된다. |
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |