|
|
|
|
|
자율주행차나 로봇의 눈 역할을 하는 사물 인식 인공지능(AI) 모델이 학습해야 할 데이터의 양을 요약해도 성능을 보존할 수 있어, 학습 효율을 극대화하는 기술이 나왔다. AI 모델 개발에 드는 시간과 연산 비용을 크게 줄일 수 있게 됐다. UNIST 인공지능대학원 심재영 교수팀은 3D 포인트 클라우드(Point Cloud) 데이터를 효과적으로 압축해 학습 효율을 높이는 ‘데이터 증류(dataset distillation)’ 기술을 개발했다고 1일 밝혔다. 데이터 증류는 대규모 학습 데이터 중 요점만을 추출해 새로운 ‘요약 데이터’를 만들어내는 기술이다. 3D 포인트 클라우드 데이터는 이 데이터 증류 기술 적용이 까다로운 형태의 데이터로 꼽힌다. 3D 포인트 클라우드 데이터는 사물을 점으로 표현해 놓은 데이터인데, 점들의 배열에 정해진 순서가 없고, 물체가 회전해 있는 경우가 많은 특성 때문이다. 이러한 특성은 요약 데이터를 생성하는 과정에서 치명적인 걸림돌이 된다. 데이터 증류는 원본 데이터와 요약 데이터의 특징을 ‘비교’하는 방식으로 요약 데이터의 완성도를 높여 나가게 되는데, 위와 같은 데이터 특성 때문에 제대로 된 비교(매칭)가 불가능하다. 결국 엉뚱한 부위끼리 비교하게 되거나 같은 물체도 다른 물체로 인식해 잘못된 정보가 반영된 요약 데이터를 만들게 된다. 연구팀은 이 문제를 해결한 데이터 증류 기술을 개발했다. 순서가 제각각인 점 데이터의 의미 구조를 자동으로 정렬해주는 손실 함수(SADM)와 물체의 회전 각도를 AI가 스스로 최적화해 학습하도록 하는 방향 최적화(learnable rotation) 기법이 적용된 기술이다. 개발된 데이터 증류 기술은 원본 대비 수십 분의 1 수준으로 데이터를 줄여도 모델 정확도를 유지하는 것으로 확인됐다. 특히, 특정 데이터셋(ModelNet40)에서는 데이터를 원본 크기의 25분의 1로 줄인 요약 데이터로 학습해도 80.1퍼센트의 인식 정확도를 기록해, 전체 데이터로 학습했을 때의 87.8퍼센트와 큰 차이가 나지 않았다. 이는 높은 압축률에서도 학습 효율과 성능을 균형 있게 확보할 수 있음을 보여주는 결과다. 심재영 교수는 “이번 기술은 3D 점 데이터의 무질서한 구조와 회전 불확실성으로 인해 기존 기술들이 겪던 매칭 오류를 근본적으로 해결한 것”이라며 “자율주행, 드론, 로봇, 디지털 트윈 등 대규모 3D 데이터 활용이 필요한 분야에서 AI 학습 비용과 시간을 크게 줄이는 데 기여할 수 있을 것”이라고 말했다. 이번 연구 결과는 3대 인공지능 분야 권위 국제학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 정식 논문으로 채택됐다. 연구수행은 과학기술정보통신부 한국연구재단, 정보통신기획평가원의 지원을 받아 이뤄졌다. 2025년 신경정보처리시스템학회는 12월 2일부터 7일까지 미국 샌디에이고에서 열린다. (논문명: Dataset Distillation of 3D Point Clouds via Distribution Matching) |
|
|
|
[붙임] 연구결과 개요 |
|
1.연구배경 자율주행차와 로봇비전, 디지털 트윈 등에서 3차원 포인트 클라우드(3D 점 데이터)의 활용이 빠르게 확대되고 있다. 하지만 포인트 클라우드는 수천~수만 개의 점으로 구성된 대규모 데이터여서 학습 과정에서 막대한 연산 비용이 든다는 한계가 있다. 이미지 분야에서는 데이터셋 증류가 이미 활발히 연구되고 있지만, 포인트 클라우드는 점들의 순서가 일정하지 않고 물체의 회전 방향도 제각각이라는 특성 때문에 기존 방식으로는 의미적 대응이 어긋나는 문제가 발생한다. 이 때문에 요약된 합성 데이터의 품질이 떨어지고, 성능 저하로 이어지는 경우가 많았다. 3D 데이터의 이러한 구조적 특성을 반영하면서도 원본 데이터의 의미를 유지한 소량의 합성 점 데이터만으로 학습이 가능하도록 만드는 새로운 증류 기술이 요구돼 왔다. 2.연구내용 본 연구는 세계 최초로 ‘의미 정렬 기반 3D 데이터셋 증류(SADM)’ 방식을 제안하며, 무질서한 점 구조와 회전 변동성을 동시에 해결하는 두 가지 핵심 기술을 포함한다. 첫째, 포인트 클라우드의 채널별 feature 값을 크기 순으로 정렬해 의미적으로 비슷한 구조끼리 대응되도록 만든 SADM(Semantically Aligned Distribution Matching) 손실을 도입했다. 점의 순서가 제각각이어도 정렬된 feature는 의미적 중요도에 따라 정렬되므로, 기존 방식보다 훨씬 일관된 비교가 가능해진다. 둘째, 물체의 회전 편차를 줄이기 위해 각 합성 포인트 클라우드의 회전각을 학습 가능한 파라미터로 두고, 원본 데이터의 다양한 방향성을 반영하도록 형상과 자세를 함께 최적화했다. 이를 통해 정렬과 방향성이 동시에 맞춰진 고품질 합성 포인트 클라우드를 생성할 수 있도록 했다. 3.기대효과 대규모 3D 데이터셋의 연산·저장 비용을 크게 낮출 수 있어, 적은 양의 데이터로도 높은 성능을 유지하는 효율적 학습이 가능하다. 라이다와 3D 센서 기반 데이터의 학습 장벽이 낮아져 소규모 연구기관이나 기업에서도 3D AI 모델 개발 접근성 이 높아질 것으로 기대된다. 또한 자율주행, 로봇, AR·VR, 디지털 트윈, 산업용 검사 등 포인트 클라우드를 활용하는 전 분야에서 적용 가능성이 크다. 의미 정렬과 회전 최적화를 결합한 이번 접근법은 향후 3D 데이터 생성·압축·경량화 연구를 비롯해 다양한 3D AI 기술의 기반 기술로 확장될 수 있다. |
|
[붙임] 용어설명 |
|
1.포인트 클라우드(Point Cloud) 3차원 공간에 존재하는 물체를 수많은 점들의 집합으로 표현한 데이터 형식. 라이다나 3D 센서로 획득되며, 자율주행차·로봇비전·디지털 트윈 등에 탑재된 AI가 사물의 형태와 위치를 정확히 파악하는 데 사용하는 기본 입력 데이터다. 2.데이터셋 증류(Dataset Distillation) 대규모 원본 데이터가 담고 있는 핵심 정보만을 추려, 극히 적은 양의 ‘합성 데이터’로도 모델을 학습할 수 있게 만드는 기술. 전체 데이터를 그대로 쓰지 않고도 유사한 성능을 내도록 하는 일종의 데이터 압축·요약 방식이다. 3.SADM 손실(Semantically Aligned Distribution Matching) 3D 포인트 클라우드의 특징값(feature)을 채널별로 크기 순서에 따라 정렬해, 의미적으로 비슷한 부분끼리 자연스럽게 대응되도록 만든 손실 함수. 원본 데이터와 합성 데이터의 특징 분포를 동일한 기준으로 비교할 수 있어, 무질서한 점 구조에서도 의미 정렬이 가능해진다. 4.회전 파라미터 최적화(Rotation Parameter Optimization) 합성된 3D 객체의 회전각을 학습 가능한 파라미터로 두고, 원본 데이터가 가진 다양한 시점·자세를 반영하도록 자동으로 조정하는 기법. 물체의 방향성 차이로 생기는 매칭 오류를 줄여, 더 정확한 합성 데이터를 만드는 데 활용된다.
|
|
[붙임] 그림설명 |
|
그림설명. 3D 데이터셋 증류 기술 개요 개발된 기술은 원본 포인트 클라우드와 합성 데이터를 동시에 입력해 특징(feature)을 비교한 뒤, 채널(벡터의 구성 요소 값)별 특징을 정렬해 의미 기반 매칭을 수행하고, 합성 데이터의 회전각까지 함께 최적화하는 구조로 구성된다. |
|
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |