Press release

2020. 05. 28 (목) 03:00 부터 보도해 주시기 바랍니다.

한국인 1천명 게놈 빅데이터 구축… 질병 분석력 높인다

UNIST, '한국인 1천명 게놈(Korea1K)' 발표… '울산 만명 게놈 프로젝트' 성과
암 등의 질병 맞춤 정밀의료 분석 가능… Science Advances 논문 게재

UNIST(총장 이용훈) 게놈산업기술센터(KOGIC)는 한국인 1,094명의 전장 게놈(유전체)’과 건강검진 정보를 통합 분석한 한국인 1천명 게놈(Korea1K)’ 결과를 국제학술지 사이언스 어드밴시스(Science Advances) 527일자로 발표했다. 본 사업은 2015년 선언된 ‘Genome Korea in Ulsan’ (울산 만명게놈사업)의 일환으로, 한국인의 모든 유전적 다양성을 지도화하기 위해 첫 번째 대규모 데이터를 공개했다. 2020년까지 1만명의 게놈 데이터를 확보할 예정이며, 모든 국민이 참여할 수 있는 일종의 ‘국민게놈사업’이다.

이번 한국인 1,000여 명의 게놈 정보를 영국과 미국에서 2003년 완성한 인간참조표준게놈지도(표준게놈)와 비교한 결과 총 3,9025,362개의 변이가 발견됐다. 한국인 1천명의 게놈이 인간표준게놈과 다른 염기 약 4천만 개를 가진다는 것이다. 특히, 이번에 발견한 변이 중 34.5%나 되는 엄청난 양의 유전자 변이가 한국인 집단 내에서 한 번만 발견되는 독특한 변이(Singleton variant)로 파악됐다. KOGIC의 센터장인 이세민 교수는 “한국인의 개인 특이적 혹은 낮은 빈도의 희귀한 유전변이의 기능과 역할을 잘 설명하려면 더 방대한 게놈 빅데이터 확보가 절실하다”고 전했다.

[연구그림] 한국인 1천명 게놈정보를 이용한 암 분석 개선

한국인 1천명 게놈(Korea1K)’은 한국인의 암과 관련 있는 유전변이, 암 조직 특이 변이예측도에서 우수한 결과를 보였다. 기존 한국인 위암 환자의 암 게놈 데이터를 한국인 1천명 게놈(Korea1K), 다른 인족의 변이체 데이터와 비교해 암세포와 관련 있는 체세포 변이(somatic variant)를 찾는 예측을 진행한 결과, 한국인 1천명 게놈(Korea1K) 데이터를 활용했을 때 정확도가 가장 높았다. 이것을 분석한 최연송 연구원은 “이것은 Korea1K의 실용적 가치도 매우 큼을 뜻한다”고 Korea1K가 표준성과 더불어 응용성도 있음을 설명했다.

[연구그림] 한국인 1천명 게놈정보를 이용한 전장게놈 연관분석

한국인 1천명 게놈(Korea1K)에는 건강검진 결과와 유전변이 간 상관관계가 분석(전장 유전체 연관 분석, GWAS)된 결과도 담겨있다. 여기에 따르면 혈액검사로 알 수 있는 중성지방, 갑성선 호르몬 수치 등 총 11개 건강검진 항목이 15개의 게놈 영역에서 467개의 유전자 변이와 관련 있다. 이 중 4개 영역은 이번에 새롭게 발견됐으며, 9개 영역에서는 기존에 알려진 것보다 상관관계가 높은 변이를 알아냈다. 제1저자들인 생명공학과의 전성원 연구원과 박영준 연구원은 “과거의 GWAS 연구가 한정된 영역에서의 유전변이만 볼 수 있는 반면에 이 연구에서는 한국인 게놈 전체를 대량으로 읽어서 분석했기 때문에 더 정확한 유전자 연관성을 얻을 수 있었다.” 라고 평하고, “미래엔, 대부분의 유전자 연구가 전장게놈을 가지고 행해질 것 같다”고 설명했다.

송철호 울산광역시장은 “국가 바이오 산업 발전을 위해 울산 게놈 빅데이터와 그간의 경험을 다른 국가 바이오 빅데이터 구축 사업 및 기업, 병원, 대학연구자 등에게 공유해 국내 바이오 산업 육성에 주춧돌 역할을 다할 것”이라며 “금년 내 1만 명 게놈 해독 완성을 위해 적극 지원하겠다”고 밝혔다. 울산시는 2015년부터 ‘게놈코리아 인 울산 사업’을 추진해 게놈 기반 바이오헬스산업을 육성하고 있다.

울산만명게놈사업은 참여자의 자발적 동의를 바탕으로 수집된 모든 정보를 가명화 및 익명화 절차를 통해 안전하게 관리한다. 이번 연구에서는 최소 1페타바이트(1PB)의 저장공간 (5MB 노래 파일 2억 개)이 필요한 1,094명의 초대형 바이오 빅데이터를 구축하였다. Korea1K 데이터는 국가적으로 공유되고 활용되기 위해 최대한 공개되어 다양한 한국인 게놈 데이터 생산에 활용될 예정이다. 한국인 1천명 게놈(Korea1K) 변이체 연구의 결과 중 한국인 내 변이빈도는 Korea1K 웹페이지 (http://1000genomes.kr/)에서 누구나 열람할 수 있다.

한국인 게놈사업을 오랫동안 수행해온 KOGIC의 박종화 교수는 “한국인 게놈 사업은 2006년부터 과기부와 산자부의 지원으로 시작해, 국가참조표준센터·게놈연구재단·숭실대·한의학연구원·카이스트·하버드의대·케임브리지 등 다양한 국가·인족·문화 배경의 사람들이 게놈 기반 공공 빅데이터를 구축하기 위해 시작됐다"며 "과기부와 울산시의 지대한 지원에 감사드리며, 앞으로도 과학연구의 목적에 어울리게 한국 국민과 인류 전체에 활용되기를 희망 한다"고 전했다.

논문명: Korean Genome Project: 1,094 Korean personal genomes with clinical information

자료문의

대외협력팀: 장준용 팀장, 양윤정 담당 (052) 217 1228

UNIST 게놈산업기술센터: 박종화 생명과학부 교수 (052) 217 5329

  • [연구그림] 한국인 1천명 게놈정보를 이용한 암 분석 개선
  • [연구그림] 한국인 1천명 게놈정보를 이용한 전장게놈 연관분석
 

[붙임] 연구결과 개요

1. 연구배경

한국인 1만 명 이상의 바이오 빅데이터(게놈1)/오믹스2) 정보 + 임상 정보 + 건강설문 정보) 구축 및 지능적 분석기술 고도화와 정밀의료 원천연구(유전자 변이3)에 따른 선택적 약물 작용 등)를 목표로 하는 ‘울산 1만 명 게놈 프로젝트’의 첫 번째 연구 결과로, 1천 명의 전장 게놈(Whole genome) 정보와 건강검진 정보를 연계 분석해 한국인의 게놈 특성 파악 및 활용 전략 제시했다. 

2. 연구내용

‘울산 1만 명 게놈 프로젝트’는 대한민국 누구나 홍보자료를 보고 자발적으로 프로젝트에 참여할 수 있도록 홈페이지를 구축해 참여자를 모집했다. 사전에 설명을 듣고 동의한 참여자들에게는 게놈 분석 연구 리포트를 제공함으로써 연구 결과를 참여자와 공유하고 본인의 유전체 정보(게놈)를 잘 이해할 기회를 제공했다.

이번 연구에서는 1,007명의 한국인 게놈을 ‘울산 1만 명 게놈 프로젝트’를 통해 새로 해독 및 공개했다. 여기에 기존 공개된 87명의 한국인 변이체(KoVariome)4)를 추가해 총 1,094명의 한국인 전장 게놈을 종합 분석했다. 그 결과 세계표준인 인간표준게놈지도(GRCh38)’와 비교해 차이 나는 3,9025,362개의 게놈 변이를 1,094명의 한국인 게놈에서 발견했다. 특히 이 중 34.5%의 변이는 한국인 집단 내에서 한 번만 발견되는 독특한 변이(Singleton variant)로 밝혀져, 한국인 특이적인 변이를 계속 더 찾아 데이터로 만들 필요성이 있음을 보여줬다. 더 많은 양의 데이터 축적을 통해 한국인의 개인 특이적 또는 낮은 빈도의 희귀한 유전변이의 기능과 역할을 설명할 수 있을 것이다.

연구팀은 이미 공개된 한국인 위암 환자의 암 게놈 데이터와 그 대조군으로 Korea1K와 다른 인족의 변이체 데이터(각각 일본인, 동아시아인, 남아시아인, 아메리카인, 유럽인, 아프리카인, 전 세계인)를 사용해, 각 집단 내 변이 발생 빈도를 기반으로 ‘암 조직 특이 체세포 변이(somatic variant)’를 구분하는 예측분석을 했다. 그 결과 영국에서 수행된 세계 최초의 1천 명 게놈 사업(The 1000 Genomes Project)과 같은 기존의 타 인족(population) 중심 변이체를 사용했을 때보다 한국인 암 환자 게놈 분석에서는 한국인 1천 명(Korea1K) 데이터를 사용했을 때, 암 조직 특이 변이 예측의 정확성이 가장 높은 것을 확인했다. 이는 한국인 1천 명 게놈을 이용하면, 게놈 연구 분석의 정밀도가 높아짐을 증명하는 것이다.

또 연구팀은 Korea1K 변이체(Variome)와 함께 참여자로부터 측정된 건강검진 결과 중 79개의 수치형 항목을 이용해 전장 게놈 연관 분석(Genome-Wide Association Study)5)을 진행했다. 그 결과 15개의 게놈 영역에 467개의 연관 유전변이를 발견했다. 이는 11개의 혈액 기반으로 알 수 있는 건강검진 항목과 연관성이 높은 것들이다.(아밀레이즈 수치, 지질단백질 a 수치, 중성지방 수치, 체지방율 수치, 젖산 탈수소 효소 수치, 직접 빌리루빈 수치, 총 빌리루빈 수치, 갑상선 호르몬 T3 수치, 암 표지자 CA19-9 수치, 암 표지자 CEA 수치, 요산 수치). 15개 게놈 영역 중 4개 영역은 이번 연구에서 새롭게 발견됐고, 나머지 11개 영역 중 9개 영역에 대해서는 기존에 알려진 연관 유전변이보다 더 유의하게 관련 있는 유전변이가 발견됐다. 과거의 GWAS 연구가 대부분 DNA-chip을 기반으로 해 한정된 영역에서의 유전변이만 볼 수 있는 반면, 이 연구에서는 한국인 게놈 전체를 읽어서 분석했기 때문에 얻을 수 있는 정확한 결과다.

이번 연구에 사용된 1,094명의 전장 게놈 기초 분석 데이터는 최소 1페타바이트(1PB)의 저장공간(5MB 노래 파일 2억 개)이 필요한 초대형 바이오 빅데이터다. 이러한 게놈 분석에는 슈퍼컴퓨팅 연산자원과 최적화된 게놈 분석 자동화 파이프라인이 필수적이다. UNIST는 1만 명의 게놈 빅데이터를 저장, 분석할 수 있는 전산 인프라를 확보해 대규모의 바이오 빅데이터를 효율적이고 안전하게 저장, 관리, 분석하는 기술을 개발하고 있다.

3. 기대효과

본 사업은 국제 컨소시엄 사업으로, UNIST의 게놈산업기술센터(코직, KOGIC)는 미국 하버드의대, 영국 케임브리지대 등으로 구성된 국제 컨소시엄을 이끌었고, 동아시아계 한국인 수천 명의 전장 게놈과 건강검진 데이터를 연계한 연관성 분석연구를 해왔다. 이번 연구는 전장 게놈 데이터와 건강검진 데이터를 동시에 모집하고, 다중 오믹스 정보 등과도 연계 분석해 한국인의 표현형(유전자에 의해 발현되는 형질) 분석, 질병 예측 등의 후속 연구에 활용될 수 있는 방대한 맞춤 정밀의료 데이터를 마련한 데 의의가 있다.

또 본 사업에서 처리되는 방대한 개인 유전자 정보의 생산, 보존, 관리, 활용의 모든 부분에서 최첨단 기술을 적극 도입 및 개발함으로써, 대한민국이 거대한 바이오의료정보 보안기술 분야의 미래 국가 경쟁력을 올리는 데 기여할 것이다.

 

[붙임] 용어설명

1. 게놈(Genome)

유전자(Gene)과 염색체(Chromosome)의 합성어. 유전체라고도 한다. 게놈은 한 개체 유전자의 총 염기서열로, 한 생물종의 거의 완전한 유전 정보의 총합이다. 인간의 유전 정보는 46개(23쌍)의 염색체에 저장된다. 염색체 안에는 마치 실타래처럼 네 종류의 염기가 모여서 있다. 인간의 경우 아데닌(A), 구아닌(G), 시토신(C), 티민(T)이라는 네 종류의 염기 30억 개가 일정한 순서로 늘어서 있다. 이 염기서열에 따라 키와 피부색 등 생물학적 특성이 결정된다.

2. 오믹스(Omics)

게놈 정보뿐만 아니라 전사체, 후성유전체, 단백질체 등 생물학적 정보를 총망라해 해석하는 학문. 염기서열로 유전정보가 저장돼 있더라도 세포분열 등을 위해 정보가 복사되는 과정(전사) 및 유전정보를 이용해 단백질을 만드는 과정에서도 문제가 생겨 질병이 발생할 수 있다. 오믹스 통합 연구를 통해 이런 문제의 근본 원인을 파악할 수 있다.

3. 변이(Variant)

인간 참조표준 게놈 지도와 샘플간의 차이. 인간이 서로 다른 생물학적 특성을 갖는 이유이다. 유전자 변이에 의해 질병과 표현형의 차이가 발생하기도 한다.

4. 변이체 (Variome)

집단이 가지고 있는 변이의 총합. 

5. 전장 유전체 연관 분석 (GWAS, Genome-Wide Association Study)

모든 유전체 위치에 대해 관심 있는 형질과의 연관성을 찾는 분석으로, 형질에 관련 있는 유전 변이를 찾는 분석에 널리 쓰인다.

 

[붙임] 그림설명

 

그림1. Korea1K (한국인 1천 명 게놈 정보)를 활용한 암 분석 개선.

(A) 암 환자의 암 조직 세포를 동일 환자의 정상세포를 이용해 체세포 돌연변이가 발생한 영역을 탐지

(B) 환자 정상세포 게놈 데이터가 없으면, 전 인류 정상집단과 대비해 비교(주황색 사람 픽토그램: 한국인)

(C) 한국인 정상집단과 비교. 전 인류 정상집단과 대비했을 때 한국인의 암과 연관될 가능성이 높은(막대 안의 숫자가 낮을수록 연관성 높음) 체세포 돌연변이와 관련 변이(변이 B, D, E, F)를 더 잘 찾아냈다. 특히 변이 D의 경우 전 인류 정상집단에서는 암과 연관성이 낮은 변이로 판단되나 한국인 정상집단 비교 시에는 암과 연관성이 높은 변이다.

 

그림2. Korea1K(한국인 1천 명 게놈 정보)를 활용한 전장 게놈 연관분석.

(A) 나이나 비만도와 같은 후천적 요인이 혈중지방수치에 영향을 미치나, 이러한 후천적 정보만으로 예측 시 큰 오차가 존재함. 이 오차를 선천적 요인 즉 유전적 영향으로 볼 수 있음.

(B) 이번 연구를 통해 해당 수치와 연관이 있을 것으로 보이는 유전자 변이 영역을 전장 게놈 분석을 통해 정확히 찾아냄.

(C) A:0 해당 유전 변이를 가지지 않은 경우. A:1 염색체 한 하나에만 변이를 가지는 경우. A:2 염색체 한 쌍 모두 변이를 갖는 경우