Press release

2025. 06. 24 (화) 부터 보도해 주시기 바랍니다.

“흐릿하고 끊기는 영상 또렷하고 매끄럽게”.. 영상 복원 AI 개발

UNIST, 저품질 영상의 해상도·프레임 모두 개선하는 AI 모델 개발
실시간 스트리밍·의료·CCTV 영상 복원 응용.. 2025 CVPR 채택

흐릿하고, 끊기는 영상을 또렷하고 매끄럽게 복원하는 인공지능 모델이 개발됐다.

UNIST 인공지능대학원 유재준 교수팀은 영상의 해상도와 프레임을 동시에 개선하는 AI 모델 ‘BF-STVSR(Bidirectional Flow-based Spatio-Temporal Video Super-Resolution)’를 개발했다고 24일 밝혔다.

해상도와 프레임 수는 영상 품질을 결정짓는 요소다. 해상도가 높을수록 화면이 선명하고 디테일이 뚜렷해지며, 프레임 수가 많을수록 영상 속 움직임이 뚝뚝 끊기지 않고 매끄럽다.

기존 AI 영상 복원 기술은 해상도와 프레임을 따로 처리하고, 프레임 보강은 미리 학습된 옵티컬 플로우 예측 네트워크에 의존했다. 옵티컬 플로우는 사물의 이동 방향과 속도를 계산해 중간 장면을 생성하는 방식으로 연산이 복잡하고 오차가 쌓이기 쉬워 영상 복원 속도와 품질면에서 한계가 있다.

반면 ‘BF-STVSR’은 비디오 특성에 적합한 신호 처리 기법을 도입해, 외부 옵티컬 플로우 예측 네트워크에 의존하지 않고 프레임 간의 양방향 움직임을 스스로 학습한다. 이 흐름을 바탕으로 사물의 윤곽 등을 함께 추론함으로써 해상도와 프레임을 동시에 개선할 수 있다.

이 AI 모델을 저해상도·저프레임 영상에 적용한 결과, 기존 모델보다 PSNR, SSIM 등 품질 지표에서 더 우수한 성능을 기록했다. PSNR과 SSIM 수치가 높다는 것은, 움직임이 많은 영상에서도 인물의 외형이 깨지거나 왜곡되지 않고 자연스럽게 복원됐다는 의미다.

유재준 교수는 “이번 기술은 저사양 장비로 촬영된 CCTV나 블랙박스 영상뿐 아니라, 전송 용량을 줄이기 위해 압축된 스트리밍 영상도 빠르게 고품질로 복원할 수 있어 미디어 콘텐츠 제작, 의료 영상 분석, VR 기술 등 분야에 전방위적으로 활용될 수 있을 것”이라고 설명했다.

이번 연구는 김은진 연구원이 제1저자로, 김현진 연구원이 공동 저자로 참여했으며, 컴퓨터 비전 분야 권위 학회인 2025 CVPR(Conference on Computer Vision and Pattern Recognition)에 채택됐다. 2025 CVPR은 지난 6월 11일부터 15일까지 미국 내슈빌에서 열렸으며, 전 세계에서 13,008편의 논문이 제출돼 이 중 22.1%인 2,878편만이 채택됐다.

연구 수행은 과학기술정보통신부 한국연구재단, 정보통신기획평가원, UNIST 슈퍼컴퓨팅센터의 지원을 받아 이뤄졌다.

(논문명: BF-STVSR: B-Splines and FourierBest Friends for High Fidelity Spatial-Temporal Video Super-Resolution)

자료문의

대외협력팀: 서진혁 팀장, 양윤정 담당 (052)217-1227

인공지능대학원: 유재준 교수 (052) 217 3453

  • [연구그림] C-STVSR 기법들의 비디오 복원 결과. 개발된 AI 모델(각 시험 별 하단)이 기존 모델과 비교해 또렷하게 영상을 복원함을 확인 할 수 있다
  • [연구그림] 제안된 인공지능 모델의 개요
  • [연구그림] 계산비용(좌)와 추론 시간(우) 비교
 

[붙임] 연구결과 개요

 

1.연구배경

고해상도 비디오는 몰입감 높은 시각 경험을 제공하지만, 이를 구현하려면 고가의 장비와 대용량 저장공간이 필요하다. 이 때문에 저해상도·저프레임 영상을 고해상도·고프레임 영상으로 복원하는 기술이 주목받고 있다. 영상 품질은 물론 저장과 전송 효율까지 높일 수 있어, 스트리밍이나 모바일 영상 서비스 등 다양한 분야에 실용적이다.

최근에는 해상도와 프레임 수를 사용자가 임의로 조정할 수 있는 ‘연속 시공간 비디오 초해상화(Continuous Spatial-Temporal Video Super-Resolution, C-STVSR)’ 기술에 대한 관심도 커지고 있다. 특히 다양한 해상도와 재생 속도가 요구되는 게임 엔진이나 스트리밍 환경에서는 실시간으로 해상도와 프레임을 유연하게 조절할 수 있는 복원 기술이 필수적이다.

하지만 기존 AI 기반 복원 기술은 비디오의 시간적 움직임이나 공간적 세부 정보를 제대로 반영하지 못해 영상 품질이 떨어지거나 시각적 왜곡(artifact)이 생기는 한계가 있었다. 이번 연구는 신호처리 이론과 딥러닝을 결합해 이러한 한계를 극복하는 새로운 복원 방식을 제시한다.

 

2.연구내용

본 연구에서는 Fourier 및 B-spline 기저함수를 활용한 새로운 시공간 초해상화 모델, BF-STVSR을 제안한다. 기존 연구에서는 MLP 기반의 Implicit Neural Representation(INR)을 사용해 시공간 보간(두 프레임 사이의 중간 장면을 생성)을 수행했지만, 단순하게 좌표값(x, y, t)을 인코딩하는 positional encoding 방식은 복잡한 움직임과 세밀한 고주파 정보를 효과적으로 표현하지 못하는 한계가 있었다.

이를 극복하기 위해, 신호처리 분야에서 표현력과 보간 능력이 입증된 Fourier 및 B-spline 기저함수를 모델 내부에 도입하였다. 특히, Fourier 기저함수는 공간 축의 고주파 정보를 정밀하게 표현하는 데, B-spline 기저함수는 시간 축의 연속적이고 복잡한 움직임을 부드럽게 표현하는 데 특화되어 있어, 시공간 초해상화 문제에 적합하다는 점에 주목하였다.

즉, Fourier Mapper는 입력 프레임의 공간 정보를 주파수 도메인에서 정밀하게 인코딩함으로써 고주파 세부 정보를 보존하고,B-spline Mapper는 시간 축에서의 연속적이고 자연스러운 움직임을 부드럽게 표현할 수 있도록 설계되었다.

이러한 설계를 통해, 기존처럼 반복적인 신경망 추론 없이도 목표 시간과 해상도에 대응되는 고품질 프레임을 효율적으로 복원할 수 있다. 기존 방법은 학습 시 사전 학습된 외부 옵티컬 플로우 네트워크(예: RAFT)에 의존하기 때문에, 모델 성능이 해당 네트워크에 크게 영향을 받고, 학습과 추론 속도 측면에서도 비효율적이라는 단점이 있다. 반면, 제안한 두 매퍼는 데이터로부터 end-to-end 방식으로 학습되며, 사전 정의된 외부 옵티컬 플로우 네트워크에 의존하지 않고도 더욱 정교한 모션 추론이 가능하다.

실험 결과, BF-STVSR은 추론 속도가 개선되었을 뿐만 아니라 다양한 영상 복원 벤치마크에서 기존 방법들보다 우수한 성능을 입증하였다. 이는 본 연구가 기존 INR 기반 C-STVSR 방식의 구조적 한계를 극복하고, 보다 정밀하고 효율적인 영상 복원 솔루션을 제시함을 보여준다.

 

3.기대효과

BF-STVSR은 고화질 영상을 효율적으로 복원할 수 있는 기술로, 다양한 산업 분야에 적용 가능하다. 고가 장비 없이도 고품질 영상 생성이 가능해 미디어 콘텐츠 제작 비용을 줄일 수 있고, 스트리밍 플랫폼에서는 저해상도 영상 전송 후 고해상도로 재생해 네트워크 부하를 줄일 수 있다.

또한 CCTV 영상이나 블랙박스처럼 품질이 낮은 영상도 선명하게 복원할 수 있어 보안·감시 분야에서 유용하며, 초음파나 MRI 등 의료 영상의 품질 향상에도 기여할 수 있다. 위성영상·항공촬영 등에서도 고해상도 센서를 대체할 수 있는 기술로 활용될 수 있다.

이번 기술은 초고해상도 영상 생성을 위한 내부 모션 표현 기법으로도 확장 가능해, 향후 생성 AI, 메타버스, 실감형 인터페이스 기술과의 융합 가능성도 기대된다.

 

[붙임]  용어설명

 

1.시공간 비디오 초해상화 (Spatial-Temporal Video Super-Resolution, STVSR)

저해상도 비디오를 고해상도로 변환하는 기술로, 프레임 보간 및 공간적 초해상도를 동시에 수행하여 더 선명하고 부드러운 영상을 생성하는 것을 목표로 한다.

2.Implicit Neural Representation (INR)

좌표 기반 신경망을 사용하여 연속적인 신호(이미지, 비디오, 3D 데이터 등)를 인코딩하는 방법이다. 기존의 CNN과 달리, INR은 좌표값(x, y, t)을 입력으로 받아 해당 위치에서의 값을 직접 예측하는 방식으로 작동한다.

3.Positional Encoding

Positional Encoding은 INR에서 MLP가 공간 및 시공간 좌표 (x, y, t)를 처리할 때 고주파 정보를 학습할 수 있도록 입력 좌표를 변환하는 방법이다. 이를 통해 신경망은 더 복잡한 패턴을 효과적으로 학습할 수 있다.

4.Fourier 기저함수 (Fourier Basis Function)

신호를 주파수 성분으로 분해하여 표현하는 기저함수로, 고주파 정보를 효과적으로 포착할 수 있다. 영상 복원에서는 Fourier 기저함수를 활용하여 텍스처 및 세부 정보를 보존하며, 고해상도 변환 시 중요한 고주파 성분을 유지하는 데 도움을 준다.

5.B-spline 기저함수 (B-spline Basis Function)

B-spline 기저함수는 연속적이고 부드러운 곡선을 표현하는 데 사용되는 기저함수로, 데이터의 변화를 자연스럽게 모델링하는 데 적합하다. 다항식 스플라인(polynomial spline) 중 하나로, 특정 구간에서 조각별(piecewise) 다항식을 사용하여 전체적인 곡선을 구성한다.

 

[붙임] 그림설명

그림 1. C-STVSR 기법들의 비디오 복원 결과

제안된 BF-STVSR은 말의 발굽이나 난간의 줄무늬 같은 세밀한 부분을 선명하게 복원할 수 있다. 특히 빠르게 움직이는 장면에서도 텍스트의 가장자리나 사람 얼굴의 디테일을 유지하는 반면, 다른 방법들은 흐려지거나 잔상이 남는 문제가 발생했다. 이는 BF-STVSR이 자연스럽게 프레임을 보강하고, 해상도를 효과적 높일 수 있음을 보여준다.

그림 2. BF-STVSR의 개요

(a) 두 입력 프레임을 저해상도 특징으로 변환한 후, Fourier Mapper는 장면의 주요 주파수 정보를, B-spline Mapper는 부드러운 움직임을 예측한다. 이를 활용해 임의의 시간 t 에서의 움직임을 계산한 뒤, 고해상도 프레임을 복원한다. (b) Fourier Mapper는 이미지의 세밀한 디테일을 잡아내는 주요 주파수를 예측한다. (c) B-spline Mapper는 자연스러운 움직임을 모델링하여 부드러운 프레임 전환을 구현한다.

그림 3. 계산 비용() 및 추론 시간() 비교

제안된 BF-STVSR은 B-spline 기저 함수의 보간 능력을 활용하여, 반복적인 신경망 추론을 최소화하였다. 제안된 BF-STVSR이 기존 방법에 비해 가장 적은 계산 비용과 가장 빠른 추론 시간을 보인다.