염색질 면역 침전(Chromatin immunoprecipitation, ChIP)은 특정 단백질의 결합 위치를 조사하는데 널리 사용된다. 특히 엑소뉴클리아제(exonuclease)를 활용한 최신 실험 기술인 ChIP-exo을 통해 고해상도로 결합 부위를 식별할 수 있다. 하지만 목표로 하는 단백질이 실제로 DNA에 결합하는 부위인 피크에 대한 판별 작업은 연구자의 노동집약적 추가 확인 단계가 필수적이다. 이는 대용량의 데이터를 신속·정확하게 처리하지 못하는 한계가 있었다.
UNIST(총장 이용훈) 에너지화학공학과 김동혁 교수팀은 이런 문제점을 해결하기 위해 딥러닝 기반의 ChIP-exo 피크 선별 소프트웨어인 DEep-learning Optimized ChIP-exo peak calling SUite(DEOCSU)를 개발했다.
DEOCSU는 참조 서열에 정렬된 ChIP-exo 데이터를 통해 피크 후보를 먼저 감지한다. 감지된 각각의 신호를 이미지 데이터로 변환한 후 학습된 데이터를 통해 이미지를 작은 단위로 쪼개어 각 부분을 분석하는 기법인 컨볼루션 신경망을 사용하여 실제 피크를 선별한다. 선별된 각 피크는 위치 최적화와 결합 크기 등을 추정할 수 있다. 해당 결과 데이터는 자체 개발 시각화 소프트웨어인 MetaScope를 통해 확인한다.
대장균 K-12 MG1655 균주의 ChIP-exo 데이터를 기반으로 학습된 DEOCSU의 모델은 학습에 사용된 데이터 뿐만 아니라 미지의 ChIP-exo 데이터에 대해서도 정확하게 피크를 선별해줬다. 공개 데이터베이스(EcoCyc와 proChIPdb)의 정보와 선행된 연구 사례를 이용하여 기존에 공개된 소프트웨어(ChExMix, MACE, MACE-elite, PeakXus)와 비교했을 때도 우수한 성능을 보였다. 특히, 원핵생물 유래의 ChIP-exo 데이터 뿐 아니라 진핵생물과 고세균에서의 분석에서도 그 성능이 유지가 되어 그 범용성 역시 확인됐다.
김동혁 에너지화학공학과 교수는 “단백질과 DNA의 상호 작용을 고해상도로 식별할 수 있는 유용한 이점에도 불구하고 분석의 어려움으로 인해 ChIP-exo 실험 기술의 사용이 제한되었었다”며 “이번 DEOCSU의 개발로 분석에 대한 연구자의 부담감을 극복시킴으로써 관련 연구의 진행 속도를 가속화할 수 있을 것이다”고 전했다.
이번 연구는 과학기술정보통신부의 바이오·의료기술개발사업과 동그라미 재단의 혁신 과학기술 센터 및 프로그램 공모사업의 지원으로 수행됐다. 연구 성과는 생물정보학 연구 권위지인 브리핑스 인 바이오인포메틱스 (Briefings in Bioinformatics)에 1월 25일자로 출판됐다.