한국인에 특화된 ‘제2형 당뇨’ 발병 예측을 위한 기계학습 모델이 개발됐다.
이정혜 산업공학과 교수팀과 고신대학교복음병원 가정의학과 강지훈 교수팀은 대규모 한국인 코호트를 바탕으로 제2형 당뇨 발병 예측 성능을 높인 기계학습 모델을 개발했다. 이들은 한국인에 특화된 다유전자 위험 점수(Genome-wide Polygenic Risk Score, gPRS)를 개발하고, 여기에 인구통계학적 정보와 임상 정보, 대사체 정보를 함께 활용했다.
당뇨는 30세 이상의 한국인 6명 중 1명이 앓을 정도로 흔한 질병이다. 뇌졸중이나 심혈관계 질환 등의 합병증을 유발하는 위험한 만성질환이라 사전 예방이 중요하다. 당뇨 발병에는 식생활을 포함한 생활 습관, 유전적 조건 등이 중요하며, 이런 정보를 토대로 한 예측 모델 연구가 꾸준히 진행 중이다.
기존의 당뇨 발병 위험예측 모델 연구는 주로 서양인 집단을 대상으로 했다. 동양인을 대상으로 해도 키와 몸무게, 가족력 같은 인구통계학적 정보나 당화혈색소(HbA1c) 수치, 콜레스테롤 수치와 같은 임상 정보를 위주로 이용했다. 이렇다 보니 한국인에 특화된 유전적‧환경적 요인까지 반영한 당뇨 예측에는 한계가 있었다.
이에 연구진은 한국인에 특화된 정보를 활용한 예측 모델 개발에 도전했다. 질병관리본부 국립보건원에서 수집한 한국인유전체역학조사사업(KoGES)의 대규모 코호트를 바탕으로 삼은 것이다. 이 코호트는 한국인에게 흔히 발생하는 당뇨, 고혈압, 비만, 대사증후군 등의 만성질환 연구를 위해 2001년부터 추적‧수집된 자료다.
연구진은 인구통계학적인 정보, 임상 정보에 유전 정보와 환경 정보를 더해 종합하면서 당뇨 발병 예측 성능을 높였다. 제1저자인 한석주 산업공학과 박사과정 연구원은 “제2형 당뇨 발병에 관한 유전 정보는 ‘다유전자 위험 점수’를 한국인 유전자 특성에 맞게 새로 계산해 예측 모델에 활용했다”며 “환경 정보는 ‘대사체’로 반영해 유전 정보가 설명하지 못하는 정보를 상호보완했다”고 설명했다.
최종 개발된 제2형 당뇨 발병 예측 모델은 인구통계학적 정보만 활용한 경우보다 약 11퍼센트포인트(%p) 예측 성능이 높았다. 인구통계학적 정보와 임상 정보까지 활용한 경우에 비해도 약 4퍼센트포인트(%p) 이상의 향상된 예측 성능을 보였다.
공동 제1저자인 김수현 산업공학과 박사과정 연구원은 “한국인 대상 코호트에서 인구통계학적 정보와 임상 정보를 얻고, 여기에 새로 개발한 다유전자 위험 점수, 대사체 정보 등을 더할수록 모델의 예측 정확도가 높아졌다”고 강조했다.
이번에 개발된 모델은 우리나라 국민에게 특화된 당뇨 발병 위험도를 파악하고, 발생 요인도 제공할 수 있다. 이 모델을 임상 현장에서 활용한다면 제2형 당뇨를 효과적으로 예방하고 대응할 수 있다는 게 연구진의 전망이다.
이정혜 교수는 “서양인 코호트 중심으로 진행되던 연구를 한국인 코호트로 바꾸어 접근한 것에 큰 의미가 있다”며 “아시아 집단의 코호트 데이터를 이용하는 다양한 후속 연구에도 활용될 수 있을 것”이라고 기대했다.
이번 연구는 의학 분야 최고 학술지인 란셋(The Lancet)의 자매지인 ‘이바이오메디슨(eBioMedicine)’에 공개됐다. UNIST의 ‘U-K Brand 육성사업(자유혁신연구)’과 한국연구재단의 ‘지역거점 혁신형 의사과학자 공동연구’에서 지원받았다.