|
|
|
360도 파노라마 사진 한 장만으로 실내 공간과 사물의 3차원 정보를 파악하는 인공지능(AI) 기술이 개발됐다. 증강현실(AR), 혼합현실(MR), 디지털 트윈 등 공간 정보의 정확한 이해가 필수적인 분야에 활용될 전망이다. UNIST 인공지능대학원 주경돈 교수팀은 360도 파노라마 이미지에서 공간 구조와 내부 물체의 3차원 정보를 동시에 추출할 수 있는 AI 모델 ‘HUSH(Holistic Panoramic 3D Scene Understanding using Spherical Harmonics)’를 개발했다고 1일 밝혔다. 증강현실(AR)이나 혼합현실(MR) 기술에서 현실 공간과 디지털 콘텐츠를 결합하려면 벽이나 가구의 위치, 물체 간의 거리 정보 등을 AI가 정확히 이해하고 표현할 수 있어야 한다. 이를 위해 기존에는 다각도에서 촬영한 여러 장의 사진이나 깊이 센서와 같은 고가 장비가 필수적이었다. 연구팀이 개발한 HUSH는 360도 파노라마 이미지만을 활용해 이 같은 정보를 파악할 수 있다. 파노라마 이미지는 일반 사진보다 넓은 범위를 한 장에 담을 수 있지만, 둥글게 왜곡된 구면 구조 때문에 AI가 이를 정확히 분석하기 어려웠다. 이미지를 잘라 왜곡을 줄인 뒤 일반 AI 모델을 반복적으로 적용하는 방식이 있으나, 이 과정에서 정보가 손실되거나 연산이 비효율적으로 진행된다. 연구팀은 이러한 문제를 해결하기 위해 파노라마 이미지의 구면 특성을 정확히 반영할 수 있는 ‘구면 조화함수(Spherical Harmonics, SH)’라는 수학적 표현 방식을 활용했다. 이 방식은 구형 표면의 정보를 주파수 성분으로 나눠 분석한다. 천장이나 바닥처럼 넓고 평탄한 영역은 저주파 성분으로, 가구나 물체의 윤곽처럼 세부적으로 복잡한 구조는 고주파 성분으로 표현해 정확성을 높였다. 제1저자인 이종성 연구원은 “구면 조화함수는 원래 가상 뷰 생성 분야에서 객체나 장면의 색감을 표현하는데 주로 쓰이는 기술인데, 구면 위의 데이터를 효과적으로 분석할 수 있다는 특성에서 착안해 파노라마 이미지 기반 공간 복원에 처음으로 적용했다”고 설명했다. HUSH 모델은 기존의 다른 3D 장면 복원 모델들보다 깊이 예측 등에서 높은 정확도를 기록했고, 단 하나의 이미지로 여러 가지 공간 정보를 동시에 예측할 수 있어 계산 효율성도 뛰어났다. 주경돈 교수는 “AR, MR과 같이 사용자 주변의 실내 공간을 정확히 인지해야 하는 경우나 이미지 한 장으로부터 유저와 상호작용이 가능한 실감미디어 생성 등 실제 생활에 폭넓게 적용될 수 있을 것”이라고 말했다. 이번 연구는 컴퓨터 비전 분야 권위 학회인 CVPR 2025(Conference on Computer Vision and Pattern Recognition)에 채택됐다. CVPR 2025는 지난달 11일부터 5일간 미국 내슈빌에서 열렸다. (논문명: HUSH: Holistic Panoramic 3D Scene Understanding using Spherical Harmonics) |
|
[붙임] 연구결과 개요 |
1.연구배경 360도 파노라마 이미지는 단일 시점에서 실내 공간 전체를 포착할 수 있는 특성 덕분에, 로봇 내비게이션, 실내 지도 구축, 가상현실 등에서 중요한 시각 입력 수단으로 활용되고 있다. 그러나 구면 영상 특유의 기하학적 왜곡과 넓은 시야 범위로 인해, 깊이 추정, 표면 법선 예측, 인스턴스 분할 등 다양한 시각적 작업을 동시에 수행하기에는 기술적 어려움이 뒤따른다. 기존 방식은 각각의 시각 요소를 독립적으로 추론하거나, 시공간 해상도 간 불균형으로 인해 전체 장면의 구조적 일관성을 유지하는 데 한계가 있었다. 이에 따라 본 연구에서는 파노라마 기반 시각 신호를 전역적으로 해석할 수 있는 새로운 표현 방식과 학습 구조를 바탕으로, 총체적인 장면 이해를 구현하는 HUSH 모델을 제안하였다. 2.연구내용 개발된 인공지능 모델 HUSH(Holistic Panoramic 3D Scene Understanding using Spherical Harmonics)는 파노라마 이미지를 구면 상의 신호로 해석한다는 관점에서 출발한다. 이와 같은 시각적 신호는 구면 조화함수(Spherical Harmonics, SH)를 통해 다양한 기저(basis)들의 가중합으로 근사될 수 있다는 수학적 성질에 기반하여, 한 장의 파노라마 이미지로부터 실내 공간의 깊이(depth), 법선(surface normal), 레이아웃(layout) 등의 구조적 특성을 효율적으로 추출한다. HUSH는 입력 이미지를 SH 표현으로 변환한 뒤, SH 계수 공간에서의 선형 복원을 통해 다양한 시각 예측 결과를 생성한다. 이 과정은 SH 디코더를 통해 수행되며, 시야 전역에 걸친 구조 정보가 왜곡 없이 일관되게 반영될 수 있도록 설계되었다. 또한, 예측 대상별로 별도의 감독 신호를 적용하는 Holistic Supervision 전략을 도입해, 다중 작업(깊이, 법선, 인스턴스, 의미 분할)의 정확도를 동시에 향상시켰다. 실험은 Structured3D, Stanford2D3D 등 실제 파노라마 기반 실내 장면 데이터셋에서 수행되었으며, HUSH는 기존 방법보다 적은 파라미터 수로 더 높은 정확도와 빠른 추론 속도를 달성했다. 특히 SH 표현 기반 접근은 공간 전역의 균일한 해상도를 확보하면서, 복잡한 실내 구조에 대한 예측 정확도를 크게 개선하는 효과를 보였다. 3.기대효과 HUSH는 단일 파노라마 이미지를 통해 실내 공간의 구조적 특성을 총체적으로 이해할 수 있는 최초의 SH 기반 모델로, 깊이, 법선, 레이아웃, 인스턴스 및 의미 분할 정보를 하나의 일관된 표현 내에서 동시에 처리한다. 이로 인해 자율주행 로봇의 실내 내비게이션, 증강현실 콘텐츠의 정밀 공간 정합, 디지털 트윈 기반 공간 분석 등 다양한 응용 분야에서 실시간성·정확성·경량성을 모두 충족하는 핵심 기술로 활용될 수 있다. 특히, 파노라마를 구면 신호로 해석하고 이를 SH 표현으로 변환하는 방식은, 향후 다양한 공간 지각 인공지능 시스템의 기본 표현 기법으로 확장될 수 있어, 공간 이해를 위한 새로운 기술적 패러다임을 제시한다. |
[붙임] 용어설명 |
1.컴퓨터 비전 사람의 시각 능력을 모방해, 이미지나 영상을 인공지능이 자동으로 해석하고 이해하도록 만드는 기술 분야다. 장면 이해(Scene Understanding)는 컴퓨터 비전의 하위 분야로, 이미지 또는 영상 안에 무엇이 있는지(객체), 어디에 있는지(공간), 어떻게 배열되어 있는지(구조)를 종합적으로 파악하는 작업이다. 장면 이해는 자율주행 차량이 주변 환경을 인식하거나, 로봇이 실내 공간을 안전하게 이동하며 물체를 조작하는 데 필수적이다. 또한, 증강현실(AR)이나 디지털 트윈처럼 실제 공간을 정밀하게 가상화해야 하는 응용에서도, 장면의 구조적 정보를 정확히 파악하는 능력이 핵심 요소로 작용한다. 2.깊이(Depth) 카메라와 장면 사이의 거리 정보를 나타낸다. 이미지 상의 각 픽셀이 실제 3차원 공간에서 얼마나 떨어져 있는지를 수치화한 값이다. 깊이 정보는 실내 공간의 입체 구조를 파악하는 데 필수적이며, 자율주행 로봇이나 증강현실에서 거리 기반 상호작용 구현에 활용된다. 3.법선(Surface Normal) 표면이 향하고 있는 방향을 나타내는 벡터 정보다. 예를 들어, 바닥의 법선은 위를 향하고, 벽의 법선은 수평 방향을 가리킨다. 법선은 물체의 기울기나 경사 정보를 포함하며, 조명 효과 계산이나 3D 재구성의 정밀도를 높이는 데 사용된다. 4.인스턴스 분할(Instance Segmentation) 이미지 안에 존재하는 같은 종류의 객체들을 개별적으로 구분하는 작업이다. 예를 들어, 의자 두 개가 나란히 있을 때 각각을 따로 인식하는 것이다. 의미 분할이 '무엇인지'를 분류하는 데 중점을 둔다면, 인스턴스 분할은 '몇 개인지'까지 식별한다. 5.의미 분할(Semantic Segmentation) 이미지의 각 픽셀에 대해 의미 있는 범주(예: 바닥, 벽, 의자 등)를 부여하는 작업이다. 같은 클래스로 판단되는 영역은 하나의 집합으로 묶이며, 장면 내에서 어떤 물체가 어디에 위치해 있는지를 추정하는 데 사용된다. 6.구면 조화함수(Spherical Harmonics, SH) 구형 표면 위의 복잡한 신호를 여러 기저 함수의 가중합으로 분해할 수 있는 수학적 표현 방식이다. SH 표현은 파노라마 이미지처럼 구면 형태의 시각 데이터를 효율적으로 처리할 수 있도록 해주며, 공간 전역의 구조 정보를 일정한 해상도로 표현하는 데 유리하다.
|
[붙임] 그림설명 |
그림설명. 단일 파노라마 이미지로부터 구면 조화함수를 활용하여 깊이, 법선 등 여러 가지 공간 정보를 추론할 수 있는 HUSH 모델 |
![]() |
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |