|
|
|
두 손으로 낯선 물체를 조작하는 장면을 3D로 복원하는 인공지능 기술이 개발됐다. 양손과 의료기구가 뒤엉킨 모의 수술 장면도 정확하게 증강현실 화면에 재현해낼 수 있게 됐다. UNIST 인공지능대학원 백승렬 교수팀은 단일 RGB 영상만으로 양손과 처음 보는 기구의 복잡한 상호작용을 실시간 3D로 시각화할 수 있는 인공지능 모델 ‘BIGS(Bimanual Interaction 3D Gaussian Splatting)’를 개발했다고 0일 밝혔다. AI는 카메라로 촬영된 2D 데이터만 입력받기 때문에 손과 물체의 실제 위치나 입체적인 형태를 파악하려면 이를 3차원으로 다시 복원하는 과정이 필요하다. 기존 기술은 한 손만 인식하거나 사전에 스캔 된 물체만 대응할 수 있는 탓에, AR이나 VR기술에서 현실감 있는 상호작용 장면을 재현해내는 데 한계가 있었다. 연구팀이 개발한 BIGS는 손이 가려지거나 일부만 보이는 상황에서도 전체 형상을 안정적으로 예측할 수 있으며, 처음 보는 물체도 학습된 시각 정보를 통해 보이지 않는 부분까지 자연스럽게 그려낸다. 또 깊이 센서나 여러 각도의 카메라 없이 단 한 대의 카메라로 찍은 단일 RGB 영상만으로 이 같은 복원이 가능해 현장에서 쉽게 적용할 수 있다. 이 AI 모델은 3차원 가우시안 스플래팅(Gaussaina Splatting)을 기반으로 한다. 가우시안 스플래팅은 사물의 형상을 퍼지는 점 구름 형태로 표현하는 방식으로, 픽셀 단위로 경계가 뚜렷한 포인트 클라우드 방식과 달리 손과 물체가 만나는 접촉면 등을 더 자연스럽게 복원할 수 있다. 이 방식은 손이 겹치거나 일부가 가려진 상황에서는 전체 형상을 추정하기 어렵지만, 모든 손을 하나의 기준 손 구조(Canonical Gaussian)에 맞춰 정렬하는 방식을 이용해 문제를 해결했다. 또 사전 학습된 확산모델을 활용한 점수 증류 방식(Score Distillation Sampling, SDS)까지 적용해 영상에 보이지 않는 물체의 뒷면까지 복원한다. 실제 ARCTIC, HO3Dv3 등 국제 데이터셋을 활용한 실험 결과, BIGS는 손의 자세, 물체의 형상, 두 손과 물체 간의 접촉 정보 복원은 물론 화면을 재현하는 렌더링 품질면에서도 기존 기술보다 우수한 성능을 보였다. 이번 연구는 UNIST 온정완 연구원이 제1저자로 곽경환, 강근영, 차준욱, 황수현, 황혜인 연구원이 공동 연구자로 참여했다. 백승렬 교수는 “이번 연구는 향후 가상현실(VR), 증강현실(AR), 로봇 제어, 원격 수술 시뮬레이션 등 다양한 분야에서 실시간 상호작용 복원 기술로 활용될 것으로 기대된다”고 말했다. 연구결과는 오는 6월 11일부터 5일간 미국에서 열리는 CVPR(Conference on Computer Vision and Pattern Recognition) 2025에 채택됐다. CVPR은 컴퓨터 비전 분야 권위 학회다. 연구수행은 과학기술정보통신부 한국연구재단, 정보통신기획평가원 등의 지원을 받아 이뤄졌다. (논문명: BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting) |
|
[붙임] 연구결과 개요 |
1. 연구배경 손과 물체의 상호작용을 3차원으로 정밀하게 복원하는 기술은 가상현실(VR), 증강현실(AR), 로봇 제어 등 다양한 분야에서 핵심적으로 활용될 수 있다. 그러나 기존 기술은 기술적 어려움으로 대부분 하나의 손과 물체의 상호작용을 복원하거나, 사전 스캔된 물체 모델에 의존해 물체에 대한 3차원 복원은 회피하는 경향이 있어 실제 환경에 적용하기 어려웠다. 특히 두 손과 물체가 동시에 등장하며 서로를 가리는 복잡한 장면에서는 복원 정확도가 크게 저하되는 한계가 있었다. 2.연구내용 본 연구에서는 이러한 한계를 극복하기 위해, 단일 영상으로부터 양손과 미지의 물체를 동시에 3D로 복원하는 신기술 ‘BIGS (Bimanual Interaction 3D Gaussian Splatting)’를 개발했다. 이 기술은 손과 물체를 각각 3차원 가우시안 분포로 표현하고, 손-물체 간의 상호작용 정보를 반영해 복원 정확도를 높였다. 특히 양손은, 하나의 정준 가우시안(Canonical Gaussian)을 공유하도록 구성하여, 제한된 시야에서도 손 형상을 안정적으로 추정할 수 있도록 했다. 물체의 경우, 사전학습된 확산 모델 기반의 점수 증류 샘플링(Score Distillation Sampling, SDS) 기법을 적용해, 영상에 보이지 않는 물체의 표면까지 예측해 복원하는 것이 가능하도록 했다. 실험 결과, ARCTIC과 HO3Dv3 등 국제 benchmark 데이터셋에서 손 자세, 물체 형상, 손-물체 접촉, 렌더링 품질 전 영역에서 기존 기술 대비 뛰어난 성능을 기록했다. 3.기대효과 이번 연구는 단일 영상만으로도 복잡한 손-물체 상호작용을 정확하게 복원할 수 있다는 가능성을 제시한 사례로, 향후 상호작용 기반의 가상현실 콘텐츠 제작, 원격 로봇 제어, 수술 시뮬레이션 등 다양한 산업 분야에 적용될 수 있을 것으로 기대된다. |
[붙임] 용어설명 |
1.3차원 가우시안 분포 (3D Gaussian Distribution) 형상을 입체적인 점 구름처럼 표현하는 방식으로, 위치와 크기, 방향을 함께 나타낼 수 있다. 주로 3D 복원이나 렌더링에 활용된다. 2.정준 가우시안 (Canonical Gaussian) 여러 손 모양을 공통된 기준 구조에 맞춰 해석할 수 있도록 정한 대표적인 가우시안 분포. 손의 위치나 방향이 달라도 일관된 기준으로 비교·복원이 가능하다. 3.사전학습된 확산 모델 (Pre-trained Diffusion Model) 방대한 이미지 데이터를 바탕으로 미리 학습된 이미지 생성 인공지능. 주어진 조건에 맞춰 자연스러운 이미지를 생성하는 데 활용된다. 4.점수 증류 샘플링 (Score Distillation Sampling, SDS) 잘 훈련된 이미지 생성 모델이 만들어낸 이미지를 기준 삼아, 다른 모델이 그 이미지에 점점 가까워지도록 학습시키는 방법. 숨겨진 형상까지 복원하는 데 쓰인다. 5.ARCTIC / HO3Dv3 데이터셋 손과 물체가 복잡하게 상호작용하는 장면을 담은 공개 영상 데이터셋. AI 모델의 3D 복원 정확도를 평가하는 데 사용된다.
|
[붙임] 그림설명 |
그림. 제안된 ‘BIGS’ 기법을 사용하여 다양한 시점에서 손-물체 상호작용을 복원한 결과. 실제 카메라 시점(Camera view)뿐 아니라, 보이지 않는 새로운 시점(Novel view)에서도 손과 물체의 형상을 안정적으로 예측한 결과를 보여준다. 기존 기술(HOLD)이 손가락이나 물체 표면을 뭉개거나 누락한 것과 달리, BIGS는 접촉 부위까지 자연스럽게 복원한 것을 확인할 수 있다. |
![]() |
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |