Press release

2025. 10. 15 (수) 부터 보도해 주시기 바랍니다.

르네상스 화가들의 ‘소실점’, 자율주행차 눈 밝힌다!

UNIST 주경돈 교수팀, 소실점 활용해 원근법 고려하는 인공신경망 모델 개발
저비용 카메라 기반 자율주행·로봇 시스템 활용 기대...IROS 2025 논문 채택

카메라 기반 자율주행차가 주변 환경을 더 정확하게 볼 수 있게 하는 인공지능 기술이 나왔다. 그림에 원근감을 부여하는 기하학적 장치인 ‘소실점’을 활용한 기술이다.

UNIST 인공지능대학원 주경돈 교수팀은 카메라를 통해 입력된 정보의 원근 왜곡 문제를 보완하는 인공지능 모델인 ‘VPOcc’를 개발했다고 15일 밝혔다.

자율주행차와 로봇의 인공지능은 카메라나 라이다(LiDAR) 센서로 주변을 인식한다. 카메라는 라이다보다 저렴하고 가벼우며 색·형태 등 풍부한 정보를 제공하지만, 3차원 공간을 2차원 이미지로 표현하기 때문에 거리에 따른 크기 왜곡이 크다. 가까운 물체는 더 크게, 먼 물체는 더 작게 보이면서 멀리 있는 사물을 놓치거나 가까운 영역만 강조되는 오류가 생긴다.

연구팀은 인공지능이 소실점을 기준으로 정보를 재구성하도록 설계해 이 문제를 해결했다. 소실점은 르네상스 시대 화가들이 정립해 내려온 원근감 부여 기법으로, 차선이나 철로 같이 실제로는 평행한 선들이 멀리서는 맞닿는 것처럼 보이는 지점을 말한다. 사람이 화폭 위의 소실점을 보고 평면에서 깊이감을 느끼는 것처럼, 개발된 인공지능 모델은 소실점을 기준으로 삼아 카메라 영상 속에서 깊이와 거리를 더 정확히 복원하게 된다.

이 모델은 크게 세 가지 모듈로 구성돼 있다. 소실점을 기준으로 영상을 보정해 원근 왜곡을 줄이는 모듈(VPZoomer), 멀고 가까운 영역에서 균형 잡힌 정보를 추출하는 모듈(VPCA), 그리고 원본과 보정 영상을 합쳐 서로의 약점을 보완하는 모듈(SVF)이다.

실험 결과, VPOcc은 여러 벤치마크에서 공간 이해 능력(mIoU)과 복원 능력(IoU) 모두에서 기존 모델을 뛰어넘는 성능을 보였다. 특히 자율주행에 중요한 도로 환경에서 멀리 있는 객체를 선명하게 예측하고, 겹쳐 있는 객체를 더 정확히 구분했다.

이번 연구는 UNIST 김준수 연구원이 제1저자로 주도했으며, 이준희 연구원(UNIST)과 미국 카네기멜론대학교 연구진이 참여했다.

김준수 연구원은 “사람이 공간을 인식하는 방식을 인공지능에 접목하면 3차원 공간을 더욱 효과적으로 이해할 것이라 생각해 연구를 시작했다”며 “라이더센서보다 가격 경쟁력과 경량화 측면에서 유리한 카메라 센서의 활용성을 극대화할 수 있는 성과”라고 설명했다.

주경돈 교수는 “개발된 기술은 로봇, 자율주행 시스템 뿐만 아니라 증강현실(AR) 지도 제작 등 다양한 분야로 응용될 수 있을 것”이라고 기대했다.

연구 성과는 지난 3월 제31회 삼성휴먼테크논문대상에서 은상을 수상했으며, 지능형 로봇 분야 권위 학회인 IROS 2025(International Conference on Intelligent Robots and Systems)에 채택됐다. 올해 학회는 오는 19일부터 25일까지 중국 항저우에서 열린다.

연구 수행은 과학기술정보통신부와 한국연구재단의 지원을 받아 이뤄졌다.

(논문명: VPOcc: Exploiting Vanishing Point for 3D Semantic Occupancy Prediction)

자료문의

대외협력팀: 서진혁 팀장, 양윤정 담당 (052)217-1227

인공지능대학원: 주경돈 교수 (052) 217 3450

  • [연구그림] 소실점을 활용하는 인공지능 모델의 구조
  • [연구그림] 개발된 인공지능 모델과 기존 모델의 예측 결과 비교
 

[붙임] 연구결과 개요

 

1.연구배경

자율주행과 로봇 비전 분야에서 카메라만으로 가려진 영역까지 완전한 3차원 공간을 이해하고 복원하는 기술이 중요하다. 3차원 공간 인식을 위해 LiDAR 센서를 활용하는 경우가 많으나, 이는 비용이 높아 실제 활용성에 제약이 크다. 따라서 카메라만을 활용한 접근이 주목받고 있다. 그러나 카메라 기반 방식은 원근 투영으로 인한 2D-3D 불일치라는 센서 자체의 근본적인 문제를 안고 있다. 멀리 있는 물체는 작게 보여 정보가 손실되고, 가까운 물체는 과도하게 크게 보이는 원근법으로 인해 정확한 3차원 공간 이해가 어렵다. 기존 연구들은 복잡한 인공신경망 개발을 통한 성능 개선에 집중해왔지만, 센서 자체의 원근 투영 한계를 직접 보완하려는 시도는 부족했다.

2.연구내용

해당 연구는 이러한 한계를 극복하기 위해 영상 내 소실점(vanishing point, VP)을 활용하여 인공신경망이 원근법을 고려할 수 있도록 하는 프레임워크 “VPOcc”을 제안한다.

이 프레임워크는 세 가지 핵심 모듈로 구성된다. 첫째, VPZoomer는 멀리 있는 영역은 확대하고 가까운 영역은 축소해 공간 전반의 픽셀 분포 불균형을 보완한다. 이를 통해 인공지능이 공간 전체를 고르게 인식할 수 있게 한다.

둘째, VP-guided Cross Attention(VPCA)은 소실점 방향을 따라가면서 이미지 특징을 추출해 3차원 공간 이해에 적합한 정보를 정합한다. 사람이 도로 끝 소실점을 바라보며 전체 공간의 깊이를 짐작하는 것처럼, 인공지능도 소실점을 기준으로 이미지를 읽어내 더 입체적이고 정확한 공간 정보를 얻게 된다.

셋째, Spatial Volume Fusion(SVF)은 원본과 보정된 이미지 특징을 융합해 균형 잡힌 3차원 특징 공간을 형성한다. 원본은 실제 카메라가 본 모습을, 보정 영상은 왜곡이 줄어든 균형 잡힌 모습을 제공하는데, 두 정보를 합쳐 더욱 완성도 높은 3차원 격자 지도(복셀 맵)를 만들어낸다.

제안한 방법은 실제 도로 환경 데이터셋을 통해 검증되었으며, 기존 모델보다 공간 이해 능력(mIoU)과 복원 능력(IoU) 모두에서 뛰어난 성능을 보였다. 공간 이해 능력은 3차원 공간 속에 있는 물체가 자동차, 건물, 나무처럼 어떤 의미를 가지는지를 구분하는 능력을 뜻하고, 복원 능력은 물체가 차지하는 공간의 형태와 위치를 얼마나 정확히 재현하는지를 의미한다. 즉 이 기술을 통해 인공지능은 단순히 “어디에 뭔가가 있다”를 아는 수준을 넘어, 그 물체가 정확히 어떤 것인지 까지 파악하며 실제 도로 상황을 더 정밀하게 읽어낼 수 있게 된 것이다.

3.기대효과

VPOcc은 저비용 카메라만으로도 고비용 라이다(LiDAR) 센서에 근접한 수준의 3차원 공간 예측을 가능하게 한다. 이를 통해 로봇 시스템 구축 비용을 줄이고, 카메라 센서 활용도를 크게 높일 수 있다. 또한 기존에 2차원 이미지 이해에 국한되어 사용되던 소실점이라는 기하학적 단서를 3차원 공간 이해로 확장하여 소실점의 활용 가능성을 넓혔다.

 

 

[붙임]  용어설명

 

1.라이다(LiDAR)

레이저로 거리를 측정해 3D 지도를 만드는 센서. 카메라보다 정확하지만 무겁고 가격이 비싸다. 테슬라의 자율주행차는 라이더센서 대신 카메라만 탑재되어 있다.

2.원근 투영

3차원 공간을 2차원 평면으로 투영하면서 멀리 있는 물체는 작게, 가까운 물체는 크게 보이는 현상.

3.소실점(Vanishing Point)

3차원 평행선들이 이미지에서 한 점으로 모이는 지점.

4.복셀(Voxcel)

‘Volume’과 ‘Pixel’을 합친 말로, 3차원 공간을 격자 단위로 쪼개 표현한 최소 단위를 뜻한다. 2차원 화면을 작은 네모칸(픽셀)으로 나누듯, 3차원 공간을 작은 입체 블록으로 나누어 표현하는 개념이다. 각 복셀은 해당 공간이 비어 있는지, 혹은 자동차·보행자·건물 같은 특정 물체로 채워져 있는지를 표시할 수 있다. 이를 통해 인공지능은 복셀 단위로 공간을 계산하고, 전체를 조합해 입체적인 3차원 지도를 만든다.

5.IoU

인공지능 모델이 예측한 3차원 공간과 실제 정답(라벨) 사이에 얼마나 겹치는지를 나타내는 지표다. 즉, 물체가 차지하는 영역의 위치와 모양을 얼마나 정확히 맞췄는지를 평가하는 ‘복원 정확도’에 해당한다.

6. mIoU

IoU 지표를 모든 객체와 범주(class)에 대해 평균 낸 값이다. 단순히 공간을 복원하는 수준을 넘어, 해당 영역이 자동차, 건물, 나무 등 어떤 의미를 갖는지까지 구분하는 ‘의미론적 이해 정확도’를 평가하는 척도다.

 

[붙임] 그림설명

그림 1. VPOcc의 아키텍처 개략도.

소실점과 카메라 이미지를 함께 활용해 원근법을 고려하는 인공신경망을 제안한 구조다. 2차원 카메라 이미지 한 장만으로도 가려진 영역까지 예측해, 도로 위 자동차·보행자·건물 등이 어디에 있는지를 입체적으로 표시한 3차원 지도를 생성한다.

그림 2. VPOcc과 기존 모델의 예측 결과 비교. 첫 번째 줄에서는 VPOcc만이 멀리 있는 나무의 형상을 예측하였으며, 두 번째와 세 번째 줄에서 VPOcc만이 겹쳐있는 차량을 효과적으로 구분해내는 것을 확인할 수 있다.