Press release

2024. 6. 19.(수)부터 보도해 주시기 바랍니다.

'텍스트만 입력하면 손 움직여’ 물체 조작 손동작 3D 모션 기술 개발

UNIST 백승렬 교수팀, 간단한 텍스트 입력으로 손동작 예측·제어 가능
사과를 집어 올리는 동작까지… 3D 모션을 텍스트 프롬프트로 구현

복잡한 초기 설정 없이도 단순한 텍스트 입력만으로 정밀한 3D 모션을 구현할 수 있는 기술이 등장했다.

UNIST(총장 이용훈) 인공지능대학원의 백승렬 교수팀은 프롬프트 입력 창에 텍스트를 넣으면 손과 물체의 상호작용 동작을 생성하는 기술(Text2HOI)을 개발했다. 단순한 텍스트 한 줄로 손과 물체의 복잡한 상호작용을 정밀하게 제어하는 기술로 향후 3D 가상현실 분야 상용화를 앞당길 것으로 기대된다.

이 기술은 텍스트 명령을 통해 물체를 잡고 놓는 동작과 물체와의 상호작용 동작 등을 구현할 수 있다. 가상현실(VR), 로보틱스, 의료 등 다양한 분야에 적용될 수 있으며, 복잡한 설정 과정이 필요 없어 누구나 쉽게 사용할 수 있는 것이 특징이다.

사용자가 입력한 텍스트를 분석하여 손동작과 관련된 명령 대상의 접촉 지점을 예측한다. 예를 들어, "사과를 양손으로 전달해라"라는 명령을 입력하면, 손과 사과 간의 가능한 접촉 지점을 확률적으로 계산한다. 이어 사과를 집어 올리는 동작을 취할 때 사과의 크기와 모양을 고려하여 손의 위치와 각도를 조절해 미세한 손동작을 구현한다.

이 기술은 의료 수술 절차를 시뮬레이션하거나, 게임과 가상현실에서 캐릭터 동작을 제어하며, 복잡한 과학 실험을 가상으로 수행하는 등 다양한 산업 분야에서 응용 가능하다. 로봇공학에서도 정밀한 손동작 제어를 통해 로봇과의 자연스러운 상호작용이 가능해질 전망이다.

백승렬 교수는 “Text2HOI 기술이 가상현실(VR/AR), 로보틱스, 의료 분야 등 다양한 분야에 적용될 수 있다”며 “앞으로도 사회에 도움이 되는 연구를 지속적으로 추진하겠다”고 밝혔다. 

제1저자 차준욱 연구원은 “텍스트 프롬프트와 손과 물체의 상호작용 동작 생성 간의 관계에 대한 초석이 되어 앞으로 더 많은 관련 연구가 이루어지길 바란다”고 말했다.

연구 결과는 세계적인 인공지능 학회인 Conference on Computer Vision and Pattern Recognition에 6월 17일 온라인으로 게재됐다. 이 연구는 과학기술정보통신부(MSIT), 한국연구재단(NRF), 정보통신기획평가원(IITP), 해양수산과학기술진흥원(KIMST), 그리고 CJ 기업 AI 센터의 지원을 받아 수행됐다.

(논문명: Text2HOI: Text-guided 3DMotion Generation for Hand-Object Interaction)

자료문의

대외협력팀: 서진혁 팀장, 권익만 담당 (052)217-1222

인공지능대학원: 백승렬 교수 (052) 217-2205

  • [연구자 사진] 백승렬 교수
  • [연구자 사진] 차준욱 연구원
  • [연구그림1] 손과 물체의 상호작용 동작 생성 결과
  • [연구그림2] 손과 물체 간의 접촉지도 생성 결과
 

[붙임] 연구결과 개요, 용어설명, 그림설명

[붙임. 연구결과 개요] 
1. 연구배경

현대 기술의 발전으로 손과 물체의 상호작용에 대한 중요성이 강조되고 있다. 특히 가상 현실, 게임 개발, 로봇공학 등 다양한 분야에서 실시간으로 복잡한 3D 상호작용을 구현할 수 있는 기술에 대한 수요가 급증하고 있다. 이러한 시장 요구에 부응하여, UNIST 연구팀은 사용자의 텍스트 입력만으로 손과 물체 간의 상호작용을 3D로 시뮬레이션할 수 있는 Text2HOI를 개발하였다. 이 기술은 기존 방법들이 요구하는 복잡한 수동 입력이나 상세한 프로그래밍 없이도 사용할 수 있는 점에서 큰 장점을 가지고 있다.

2. 연구내용

Text2HOI 프로젝트는 크게 두 가지 기술적 구성 요소로 나뉜다: 접촉지도 생성과 동작 생성. 각 구성 요소는 복잡한 3D 손-물체 상호작용을 텍스트 입력만으로 생성할 수 있도록 설계되었다. 첫 번째 단계인 접촉지도 생성에서는 VAE(변분 오토인코더) 기반의 네트워크가 사용된다. 이 네트워크는 사용자가 입력한 텍스트를 분석하여, 해당 텍스트가 지시하는 손동작과 관련된 객체 메쉬와의 예상 접촉 지점들을 예측한다. 예를 들어, 사용자가 "사과를 양손으로 전달해라"와 같은 지시를 입력하면, 이 네트워크는 손과 사과 간의 가능한 접촉 지점을 확률적으로 매핑하여 출력한다. 이 접촉지도는 후속 모듈에 강력한 사전 정보를 제공하여, 보다 정확한 동작 예측을 가능하게 한다. 두 번째 단계는 동작 생성 과정이다. 이 단계에서는 Transformer 기반의 확산 모델이 사용되어, 첫 번째 단계에서 생성된 접촉지도를 바탕으로 실제 손-물체 동작을 생성한다. 이 모델은 텍스트에서 파생된 지시와 접촉지도에서 파악된 구조적 정보를 결합하여, 실시간으로 3D 손-물체 동작을 시뮬레이션한다. 예를 들어, 사과를 집어 올리는 동작을 생성할 때, 이 모델은 사과의 크기와 모양을 고려하여 손의 위치와 각도를 조절함으로써 사실적인 상호작용을 재현한다. 이 두 단계를 통합함으로써, Text2HOI는 단순한 텍스트 입력으로부터 복잡한 3D 상호작용을 직관적이고 정확하게 생성할 수 있는 강력한 시스템을 구축하였다.

3. 기대효과 

Text2HOI 기술의 개발은 여러 산업 분야에 걸쳐 혁신적인 변화를 가져올 것으로 기대된다. 이 기술은 특히 의료, 엔터테인먼트, 교육, 로봇공학 등의 분야에서 광범위하게 활용될 잠재력을 지니고 있다. 의료 분야에서의 응용: 의료 시뮬레이션 분야에서는 Text2HOI 기술을 활용하여 수술 절차를 시뮬레이션하고 의료 전문가의 훈련을 지원할 수 있다. 예를 들어, 복잡한 수술 도구를 사용하는 방법을 교육하기 위해, 텍스트 지시에 따라 도구와의 상호작용을 3D로 시뮬레이션함으로써 수술 실습의 효율성과 안전성을 향상시킬 수 있다. 또한, 실제 환자에게 적용하기 전에 다양한 시나리오를 가상으로 경험해볼 수 있어 의료 사고의 위험을 줄이고, 의료 서비스의 질을 향상시킬 수 있다. 엔터테인먼트 및 게임 개발에서의 응용: 게임 및 가상 현실 분야에서는 사용자의 텍스트 명령을 바탕으로 캐릭터의 동작을 제어하는 데 Text2HOI를 활용할 수 있다. 이 기술을 통해 개발자들은 더욱 사실적이고 다양한 상호작용을 구현할 수 있으며, 플레이어는 자신의 의도에 따라 게임 내에서 캐릭터를 자유롭게 조작할 수 있게 된다. 교육 분야에서의 응용: 교육 기술에도 Text2HOI는 큰 변화를 가져올 수 있다. 복잡한 과학 실험을 가상으로 실시하거나, 역사적 사건을 3D 시뮬레이션으로 재현함으로써 학생들이 학습 내용을 보다 직관적으로 이해할 수 있도록 도와준다. 이 기술을 통해 교육자들은 텍스트 기반의 지시를 통해 다양한 교육 콘텐츠를 쉽게 생성하고, 학습자들은 보다 상호작용적이고 재미있는 방식으로 지식을 습득할 수 있다. 로봇공학 분야에서의 응용: 로봇공학에서는 Text2HOI를 사용하여 로봇의 손동작을 정밀하게 제어할 수 있다. 이를 통해 로봇이 더욱 섬세하고 정교한 작업을 수행할 수 있게 되며, 사람과 로봇 간의 상호작용도 자연스럽게 이루어질 수 있다. 예를 들어, 로봇이 사람의 지시를 텍스트로 받아 복잡한 조립 라인에서의 작업을 수행하거나, 위험한 환경에서의 임무를 수행하는 등의 응용이 가능하다.

[붙임. 용어설명] 
1. 변분 오토인코더 (VAE, Variational Autoencoder)

VAE는 입력 데이터의 중요 특성을 학습하고, 이를 바탕으로 새로운 데이터를 생성할 수 있다. 주로 차원 축소와 생성 모델링에 사용된다.

2. 트랜스포머 (Transformer)

트랜스포머는 주로 자연어 처리 분야에서 사용된다. 어텐션 메커니즘을 사용해 입력 시퀀스의 다양한 부분을 동시에 처리할 수 있다. 이 모델은 순차적 정보 처리의 필요성을 줄이면서 복잡한 시퀀스 간의 관계를 학습할 수 있다.

3. 확산 모델 (Diffusion Model)

확산 모델은 무작위 노이즈에서 시작해 점차적으로 데이터의 분포를 학습한다. 이 모델은 복잡한 데이터 패턴을 생성할 수 있으며, 생성 모델링 분야에서 주목받고 있다.

4. 접촉지도 (Contact Map)

접촉지도는 손과 물체 사이의 상호 작용 지점을 확률적으로 표시한다.

[붙임. 그림설명]

그림1. 손과 물체의 상호작용 동작 생성 결과

“오른손으로 비행기를 날린다(Fly an airplane with the right hand)”텍스트 프롬프트 입력을 통해 생성된 동작 결과이다.

그림2. 손과 물체 간의 접촉지도 생성 결과

“오른손으로 비행기를 날린다(Fly an airplane with the right hand)”텍스트 프롬프트 입력을 통해 생성된 접촉지도 결과이다.