|
|
|
|
|
이미지 정보 전송량을 줄일 수 있는 AI 기술이 나왔다. 자율주행 차량의 인식 시스템, 원격 수술과 진단, 메타버스 실시간 렌더링처럼 대규모 영상 데이터를 지연 없이 주고받아야 하는 분야에 도움이 될 것으로 기대를 모은다. UNIST 인공지능대학원 윤성환 교수팀은 목적에 맞게 꼭 필요한 의미 정보만을 골라 전달하는 AI 기반 무선 이미지 전송 기술인 ‘과제 맞춤형 의미통신(Task-Adaptive Semantic Communication)’기술을 개발했다고 6일 밝혔다. 이미지 정보는 객체(Object), 배치(레이아웃, Layout), 관계(Relation) 등의 의미 구조(semantics)로 나뉘는데, 현재 쓰이는 무선 이미지 전송 기술은 이 같은 의미 구조를 고려하지 않고 이미지를 통째로 압축한 뒤 전송한다. 이 때문에 대역폭 제약과 전송 지연이 발생해 고해상도 영상을 실시간으로 주고받기 어렵다. 연구팀이 개발한 기술은 이미지에 포함된 모든 정보를 보내지 않고, 과제(Task)에 꼭 필요한 의미 정보만을 선별해 전달하는 방식이다. 가령 단순히 사진 속 객체를 분류해야 하는 과제일 때는 ‘고양이’, ‘자동차’ 같은 객체 정보만 보내고, ‘모자를 쓴 고양이’나 ‘의자 위에 앉은 사람’ 같은 이미지 생성이 목적이면 객체들의 배치와 관계 정보까지 함께 전송하는 식이다. 또 관계 정보를 전송하는 과정에서 “사람에게 머리가 있다”처럼 항상 참인 정보나, “손에 막대를 쥐고 있다”와 “사람이 막대를 들고 있다”처럼 중복된 정보는 걸러내는 의미 필터링(Semantic Filtering) 알고리즘을 개발해 적용했다. 이 과정을 통해 불필요한 데이터 전송은 줄이고, 과제 수행에 필요한 맥락은 유지하면서 전송 효율을 크게 높일 수 있었다. 시뮬레이션 결과, 이 기술은 기존 방식에 비해 최대 45배 높은 전송 효율을 달성했으며, 다양한 무선 채널 조건에서도 실시간 시각 과제 수행이 가능함이 입증됐다. 윤성환 교수는 “앞으로는 단순히 ‘정확하게 보내는 것’을 넘어, ‘의미 있게 보내는 것’이 통신의 핵심이 될 것”이라며 “이번 연구는 지능형 무선통신의 판도를 바꾸는 신호탄”이라고 말했다. 제1 저자인 박정훈 연구원은 “자율주행 차량의 인식 시스템, 원격 수술 및 진단, 메타버스 실시간 렌더링처럼 대규모 영상 데이터를 지연 없이 주고받아야 하는 분야에 도움이 될 전망”이라고 기대했다. 연구 결과는 IEEE 통신 분야 최상위 저널 중 하나인 ‘IEEE 저널 오브 온 셀렉티드 에어리어즈 인 커뮤니케이션즈(Journal on Selected Areas in Communications,JSAC)’에 10월 20일 게재됐다. 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)의 ‘지역지능화혁신인재양성 사업’, ‘인공지능대학원(울산과학기술원)’ 사업, ‘AI스타펠로우십(울산과학기술원’ 사업, 보건복지부 지원 보건의료기술 연구개발 사업, 그리고 NRF 지원 개인기초연구 중견연구를 통해 수행했다. (논문명: Transmit What You Need: Task-Adaptive Semantic Communications for Visual Information)
|
|
|
|
[붙임] 연구결과 개요 |
|
1.연구배경 최근 자율주행, 증강현실(AR), 메타버스 등 시각 기반 인공지능(AI) 기술의 발전에 따라, 고해상도 영상 데이터를 무선 통신망을 통해 빠르고 정확하게 전달하는 수요가 급증하고 있다. 하지만 기존의 영상 압축 및 전송 방식은 모든 픽셀 정보를 전송하는 구조로 되어 있어, 네트워크 대역폭이 제한된 환경에서는 실시간 대응이 어렵다는 한계가 있다. 이를 극복하기 위해, 최근에는 데이터를 압축할 뿐 아니라 의미(semantic) 수준에서 정보의 핵심만 추출하여 전달하는 의미통신(Semantic Communication) 개념이 주목받고 있다. 그러나 기존 연구들은 단일한 의미 형태만을 사용하는 등, 실제 과제가 요구하는 정보와의 불일치를 고려하지 못해 통신 효율을 저해하는 문제가 있었다. 2.연구내용 본 연구에서는 과제(Task)에 따라 꼭 필요한 의미 정보만을 선별하여 전송하는 ‘태스크 적응형 의미통신(Task-Adaptive Semantic Communication)’ 프레임워크를 제안하였다. 먼저, 입력 이미지로부터 다양한 시각 의미 정보(객체, 레이아웃, 관계, 장면 그래프 등)를 추출한 뒤, 수신 측에서 수행하고자 하는 시각 과제(예: 분류, 탐지, 이미지 생성 등)에 맞게 가장 적절한 의미 유형만을 선택하여 전송한다. 특히 장면 그래프(Scene Graph) 전송 시, 의미 중복성과 정보량을 정량적으로 분석하여, 불필요한 관계나 문장을 걸러내는 '의미 필터링(Semantic Filtering)' 알고리즘을 새롭게 개발하였다. 이 과정에서 사전학습된 언어 모델(Sentence-BERT) 을 활용해 그래프 내 문장 간 의미 유사성을 정량화함으로써, 전송량은 줄이면서도 수신 측 과제 수행에는 지장이 없도록 설계하였다. 실험에서는 자율주행 영상, 복잡한 장면이 포함된 대규모 이미지 데이터셋을 기반으로 시뮬레이션을 수행하였으며, 이미지 생성 및 검색 과제에서 기존 방식 대비 최대 45배의 전송 효율 개선을 달성하였고, 5G NR 기반 무선 채널 시뮬레이션에서도 실제 전송 지연(latency)을 대폭 단축할 수 있음을 입증하였다. 3.기대효과 초저지연(ultra-low latency) 환경에서도 시각 기반 인공지능 과제를 원활히 수행할 수 있어, 자율주행, 원격 제어, 산업용 영상 모니터링 등 실시간성이 중요한 분야에 즉시 응용 가능하다. 기존의 ‘모두 전송하고 수신 측에서 판단’하던 비효율적인 방식 대신, 전송 전에 과제에 맞게 의미를 선택·압축·필터링하는 능동형 통신 시스템 구현에 기여한다. 또한, 본 연구는 의미통신 분야에서 처음으로 ‘과제 중심 의미 선택(task-dependent semantic selection)’이라는 새로운 패러다임을 정립했다는 점에서, 차세대 지능형 통신 기술의 이정표로 평가될 수 있다. |
|
[붙임] 용어설명 |
|
1.의미통신(Semantic Communication) 사람이 이해할 수 있는 의미 단위로 정보를 압축하고 전송하는 차세대 통신 방식. 기존 통신이 ‘데이터의 정확한 전달’을 중시했다면, 의미통신은 ‘의미 있는 정보만 효율적으로 전달’하는 것을 목표로 한다. 2.태스크 적응형 전송(Task-Adaptive Transmission) 수신 측에서 수행할 과제(예: 분류, 탐지, 생성 등)에 맞추어 꼭 필요한 의미 정보만 선택적으로 전송하는 방식. 불필요한 정보 전송을 줄이고 효율성을 높일 수 있다. 3.시각 의미 정보(Visual Semantics) 이미지 속에 존재하는 의미 있는 요소들. 예: ‘사람’, ‘자동차’, ‘위치 정보’, ‘관계 정보’(예: 사람이 자전거를 탐) 등. 4.장면 그래프(Scene Graph) 이미지 속 객체(Object)들을 노드(Node)로, 객체들 사이의 관계(Relation)를 엣지(Edge)로 나타낸 그래프 구조. 예를 들어 ‘사람이 자전거를 탄다’라는 장면은 [사람]—(탄다)—[자전거] 형태로 표현된다. 장면 그래프는 이미지 캡션 생성, 검색, 생성형 AI의 조건 정보 등 다양한 시각 과제에서 활용되는 대표적인 의미 표현 방식이다. 5.의미 필터링 (Semantic Filtering) 중복되거나 정보량이 낮은 의미를 걸러내어 전송량을 줄이는 과정. 예를 들어, “사람은 머리가 있다”와 같은 일반적인 정보는 전송하지 않고 생략함. 6.5G-NR (5th Generation - New Radio) 5세대 이동통신의 핵심 표준. 본 연구에서는 5G-NR 채널 시뮬레이션을 기반으로 실제 의미 전송의 지연 시간과 효율성을 분석하였다. |
|
[붙임] 그림설명 |
|
그림 1. 하나의 이미지로부터 추출 가능한 다양한 시각 의미 정보의 종류 시각 의미 정보는 객체 목록, 장면 그래프, 시맨틱 세그멘테이션(Semantic Segmentation Map), 레이아웃(Layouts), 특징 맵(Feature Map) 등이 포함되며, 각각은 서로 다른 컴퓨터 비전 과제를 해결하기 위한 입력으로 사용될 수 있다. 예를 들어, 간단한 분류(classification)에는 객체 정보만 필요하지만, 이미지 생성(image generation)과 같은 복잡한 과제에는 관계 정보와 공간 정보까지 포함된 ‘장면 그래프’와 ‘레이아웃’이 필요하다.
그림 2. 본 연구에서 제안한 태스크 적응형 전송 구조 제안된 시스템의 송신기(Tx)와 수신기(Rx)의 구조를 단계별로 시각화한 도식이다. 먼저 송신기에서는 이미지의 시각 의미 정보(객체, 관계, 레이아웃 등)를 추출하고, 불필요하거나 중복된 의미를 제거하는 의미 필터링(Semantic Filtering) 절차가 이뤄진다. 이후, 수신 측 과제에 꼭 필요한 의미만을 선택하여 전송하며, 수신기는 해당 의미 정보를 바탕으로 적절한 비전 과제를 수행하거나 이미지를 복원한다.
그림 3. 본 연구에서 제안한 장면 그래프 의미 필터링 개요 하나의 장면 그래프 내에서 중복되거나 정보량이 낮은 관계를 제거하는 필터링 과정을 예시 이미지와 함께 설명한 그림이다. 예를 들어, "사람이 막대기를 들고 있다"와 "손에 막대기를 쥐고 있다"는 의미적으로 중복되므로 후자는 제거되고, "사람이 머리가 있다"와 같은 너무 일반적인 관계는 정보량이 낮아 필터링된다. 이 과정은 조건부 확률 계산 및 언어 임베딩 기반 문장 유사도 분석을 통해 수행되며, 이를 통해 전송되는 의미의 수를 줄이면서도 본질적인 장면 정보를 유지할 수 있다. 그림은 의미 필터링 전후의 장면 그래프 비교를 통해, 압축 효과를 직관적으로 보여준다.
그림 4. 전송하는 의미 정보에 따른 태스크 성능 비교 결과 (왼쪽) 전송된 시각 의미 유형에 따라 비트당 전송 효율(bit-per-pixel, bpp)과 의미 유사도가 어떻게 달라지는지를 비교한 성능 그래프. 기존 압축 이미지(JPEG 등)는 전송 비트수가 낮아질수록 의미 유사도가 급격히 떨어지는 반면, 본 연구에서 제안한 방식은 훨씬 적은 비트로도 높은 의미 유사도를 유지한다. 특히, ‘Filtered SG + Layout’ 방식은 JPEG 전송 대비 약 45배 더 적은 비트로 유사한 의미 정보를 전달할 수 있는 것으로 나타났다. 이 결과는 태스크 중심 의미 선택의 효율성을 수치적으로 입증한다. (오른쪽) 이 그림은 객체 탐지(Detection) 과제 수행 시, 전송된 의미 정보의 종류에 따라 탐지 성능(mIoU) 이 어떻게 달라지는지를 비교한 결과이다. 기존 연구 방식들은 이미지 자체를 압축 전송하거나, 전체 이미지 복원을 거친 뒤 탐지를 수행하므로 전송량은 많지만 성능은 불안정했다. 반면, 본 연구에서 제안한 전송 방식(파란색)은 이미지를 복원하지 않고도 바로 탐지 성능을 확보할 수 있어, mIoU 기준 기존 대비 우수하거나 유사한 성능을 유지하면서도 전송 지연을 획기적으로 줄이는 데 성공했다. 이 그림은 제안한 과제 직행형 의미통신의 현실 적용 가능성을 뒷받침하며, 특히 실시간 산업용 비전 시스템, 자율주행 차량의 인식 시스템 등에서의 응용 가능성을 높여준다. |
|
UNIST 홍보팀 news@unist.ac.kr TEL : 052)217-1230FAX : 052)217-1229 |