UNIST 산업공학과의 인공지능 보안 연구실 박새롬 교수팀은 머신러닝 보안 분야 세계 최고 권위의 학술대회 중의 하나인 ‘IEEE Conference on Secure and Trustworthy Machine Learning’에서 ‘CNN Interpretability(합성곱 신경망* 해석능력)’ 분야 1위를 수상하였다.
지난 4월 9일부터 11일까지 캐나다 토론토대학교에서 개최된 본 대회는 IEEE(Institute of Electrical and Electronics Engineers, 전기전자공학자협회)가 후원하였으며, 머신러닝 시스템의 보안과 신뢰성에 대한 새로운 아이디어와 정보공유를 위해 2023년에 이어 올해 두 번째로 열렸다.
올해 대회 주제는 ‘인공지능 모델에 주입된 백도어 공격의 트리거를 시각화하는 모델 개발’로, 다양한 종류의 트리거로 공격당한 모델에 대해 적절한 시각화 방법을 활용하여 사실적으로 트리거를 재현하는 것이었다.
대회에는 박새롬 교수 연구실의 윤지은, 정예성, 백준혁, 김민환, 권기완 학생이 한 팀을 이뤄 참여했으며, 연구팀이 선보인 모델은 벤치마크 성능을 뛰어넘는 새로운 기록을 달성하여 1위에 올랐다.
해당 모델은 벤치마킹 모델의 하이퍼파라미터를 조절하는 학습 과정과 자연스럽게 발생하는 트리거의 시각화 성능을 높이는 필터링 과정이 돋보였다. 결과적으로 새로운 모델을 개발하여 기존 벤치마킹 모델들과 비교해 최고의 성능을 인정받은 것이다.
대회에 참여한 윤지은 연구원은 “인공지능 모델에 숨겨진 위협을 찾는 것은 실제로도 매우 중요한 과제이며, 간단한 아이디어로 시각화 성능을 매우 높일 수 있다는 점에서 1위를 할 수 있었던 것 같다”고 말했다.
그는 이어 “연구실 팀원들과 모두 함께 고생해서 국제 대회에서 받은 첫 상인 만큼 의미가 깊다”며 “앞으로도 실생활에서도 매우 중요한 연구 분야인 인공지능 보안에 관한 연구를 이어나가겠다”고 말했다.
*편집자 주: CNN(Convolutional Neural Network)은 수학적 연산을 기반으로 이미지 처리에 적합한 구조를 가진 인공 신경망 모델을 말한다.