Press release

2025. 12. 17 (수) 부터 보도해 주시기 바랍니다.

“악필 수학 답안도 척척 채점”.. AI 선생님 나왔다!

UNIST·POSTECH, 손글씨 수학 답안 채점하는 AI 선생님 ‘베미’ 개발
GPT-4, 제미나이 2.O Flash에 버금가는 채점 정확도 기록 ... EMNLP 2025 논문 채택

삐뚤빼뚤한 수학 답안을 사람처럼 꼼꼼하게 채점하고 첨삭까지 해주는 AI 선생님이 나왔다.

UNIST 인공지능대학원 김태환 교수와 POSTECH 고성안 교수팀은 손글씨로 쓴 복잡한 수학 답안을 채점하는 AI 모델인 ‘베미(VEHME, Vision-Language Model for Evaluating Handwritten Mathematics Expressions)’를 개발했다고 17일 밝혔다.

주관식 수학 문제 채점은 교육 현장에서 가장 시간이 많이 소요되는 업무지만 이를 자동화하기에는 한계가 있었다. 수학 풀이 특성상 수식, 그래프, 도형이 섞여 있고 학생마다 필체와 답안 배치가 제각각이라, AI가 이를 정확히 인식해 오류를 찾아내는 것이 어렵기 때문이다.

연구진이 개발한 베미는 마치 사람이 문제 풀이의 흐름을 따라가는 것처럼 수식의 위치와 문맥을 정확히 읽고, 틀린 풀이를 짚어낼 수 있다.

실제 베미로 미적분부터 초등학교 산수 수준의 다양한 수학 문제 풀이를 채점해본 결과, 경량 모델임에도 불구하고 거대 모델인 ‘GPT-4o’, 제미나이 2.0 Flash와 대등한 채점 정확도를 보였다. 특히 답안이 심하게 회전되어 있거나 글씨가 엉망인 고난도 평가에서는 베미가 오히려 상용 모델들을 제치고 더 정확하게 오류 위치를 찾아냈다. 70억 개의 매개변수를 사용하는 베미와 달리 GPT나 제미나이와 같은 모델들은 수천억 개 이상의 매개변수를 가진 것으로 알려져 있다.

연구팀은 수식 인식 시각 프롬프트(EVPM)라는 자체 개발 기술과 ‘이중 학습 기법’을 이용해 베미를 만들 수 있었다. EVPM은 베미가 복잡하게 나열된 수식들에 가상의 박스를 쳐서 풀이 순서를 놓치지 않게 만들어준다. 2단계 강화학습은 단순히 정답을 맞혔는지 뿐만 아니라, 풀이 과정 중 어느 부분이 왜 틀렸는지까지 설명할 수 있도록 한다.

또 AI가 학습할 수 있는 정교한 손글씨와 첨삭 데이터가 많지 않았기 때문에 거대 언어 모델(QwQ-32B)로 합성 데이터를 만들어 활용했다.

한편, 베미는 오픈 소스 모델로 만들어져 학교나 학원 같은 교육 기관에서 무료로 쓸 수 있다.

김태환 교수는 “손글씨 수학 채점은 에듀테크 AI의 난제 중 하나이자 이미지와 언어를 함께 이해해야 하는 멀티모달 AI의 대표적 적용 분야”라며 “베미는 복잡한 풀이 구조를 사람처럼 단계별로 따라가며 판단하는 모델로, 실제 교육 현장에서 활용할 수 있을 정도의 안정성과 효율성을 확보한 것에 큰 의미가 있다”고 말했다.

김 교수는 이어 “자체 개발한 EVPM 모듈은 복잡하게 배열된 시각 정보를 자동으로 구조화할 수 있게 해, 교육 분야뿐 아니라 문서 인식, 설계 도면 분석, 수기 기록물 디지털화 등 다양한 산업 분야의 멀티모달 추론 모델에도 쓸 수 있을 것”이라고 덧붙였다.

이번 연구는 과학기술정보통신부 한국연구재단, 정보통신기획평가원 등의 지원을 받아 이뤄졌으며, 연구 결과는 자연어처리(NLP) 분야 대표 국제학회인 EMNLP(Empirical Methods in Natural Language Processing)의 정식 논문으로 채택됐다. 올해 EMNLP는 11월 5일부터 9일까지 중국 쑤저우에서 열렸다.

(논문명: VEHME: A Vision Language Model For Evaluating Handwritten Mathematics Expressions)

자료문의

대외협력팀: 서진혁 팀장, 양윤정 담당 (052)217-1227

인공지능대학원: 김태환 교수 (052) 217-3454

  • [연구그림] 베미(VEHME)가 수학 답안을 채첨하는 과정
  • [연구그림] 베미(VEHME) 모델의 전체 구조
 

[붙임] 연구결과 개요

 

1.연구배경

손글씨로 작성된 수학 풀이를 자동으로 채점하려는 시도는 오래전부터 있었지만, 실제 교육 환경에서 활용되기에는 여러 제약이 있었다. 학생들은 정해진 양식 없이 자유롭게 풀이를 작성하기 때문에, 수식은 여러 줄로 흩어지고 글씨는 기울거나 크기가 불규칙하며, 도해·기호·메모가 뒤섞이는 경우도 많다. 이런 비정형 입력은 기계가 안정적으로 읽어내기 어렵고, 그 결과 기존의 수식 인식(OCR-based Handwritten Mathematical Expression Recognition) 방식이나 입력 형식을 강제하는 자동 채점 시스템, 또는 텍스트 변환 후 정답만 비교하는 언어모델 기반 채점 방식은 실제 손글씨 풀이에서 일관된 성능을 내지 못했다.

여기에 다양한 필체와 복잡한 다중 라인 수식, 오류 위치 정보까지 포함된 고품질 학습 데이터가 부족해, 모델이 실제 답안의 구조적 특성을 충분히 학습하기 어려웠다. 특히 멀티모달 모델의 약점으로 지적돼 온 공간 이해문제는 기울기·배치·간격이 모두 뒤섞인 손글씨 수식을 정확히 감지해야 하는 상황에서 더 크게 드러났다. 이런 기술적 공백을 메우는 것이 이번 연구의 출발점이었다.

2.연구내용

VEHME는 수학 문제, 정답 풀이, 학생의 손글씨 풀이 이미지를 한 번에 입력받아 정답 여부와 오류 위치를 동시에 판단하는 비전-언어 모델(Vision-Language Model, VLM) 기반 구조로 설계됐다. 손글씨를 텍스트로 변환하는 중간 단계를 거치지 않고 이미지를 그대로 읽어 공간 구조를 먼저 파악한 뒤 채점과 추론을 수행하는 End-to-End 방식이라는 점이 핵심이다.

모델 학습은 두 단계로 이루어진다. 먼저 지도학습인 지도 미세조정(Supervised Fine-Tuning, SFT) 단계에서는 정답 판정과 오류 설명을 모두 포함한 고품질 추론 데이터를 학습해 기본 채점 능력과 단계적 추론(reasoning)을 확보한다. 이어지는 강화학습(Reinforcement Learning, RL) 단계에서는 GRPO 기반 최적화를 적용해 여러 후보 출력 중 더 타당한 답변을 고르는 방식으로 모델을 조정한다. 이때 정답 일치 여부, 오류 설명의 적절성, 추론의 충실도, 불필요한 반복 등에 대한 감점을 통합한 복합 보상(Composite Reward) 을 사용해 정확성과 해석 가능성을 함께 높였다.

손글씨 풀이에서 가장 어려운 과제는 기울기·간격·배치가 제각각인 수식을 안정적으로 찾아내는 일이다. 이를 해결하기 위해 연구팀은 EVPM이라는 자체 개발 수식 인식 시각 프롬프트 모듈(Expression-Aware Visual Prompting Module) 을 도입했다. EVPM은 손글씨 이미지 속 수식을 회전 경계박스(Oriented Bounding Box) 형태로 감지해, 흩어진 수식의 위치와 순서를 구조화된 정보로 정리해 VLM에 제공한다. YOLOv11 기반 탐지기에 다중 라인·기울기·왜곡을 모사한 합성 수식 이미지를 대량 학습시키는 방식으로 구현됐으며, 덕분에 VEHME는 실제 손글씨의 복잡한 공간 구조에서도 수식 단위를 안정적으로 포착하고 풀이 흐름을 따라갈 수 있게 됐다.

AIHub과 FERMAT 데이터셋 평가에서도 VEHME는 정답 판정 ,오류 탐지, 오류 위치 판단에서 기존 오픈소스 모델보다 안정적으로 높은 성능을 보였다. Pyxtrel-12B나 Qwen-VL 계열 같은 대형 모델을 넘어섰고, 일부 항목에서는 GPT-4o-mini 같은 상업용 모델보다도 더 우수한 결과를 얻었다. 특히 풀이 과정에서 잘못된 단계를 짚어내는 오류 위치 판단 성능이 두드러져, 손글씨 기반 수학 채점의 새로운 기준을 제시했다.

3.기대효과

VEHME는 입력 형식을 강제하지 않기 때문에 실제 교실·학원·온라인 교육 플랫폼에서 수집되는 손글씨 답안을 그대로 처리할 수 있다. 대규모 채점 업무의 자동화가 가능해지고 교사의 채점 부담을 줄일 수 있으며, 학생들에게 더 빠르고 구체적인 피드백을 제공하는 기반이 된다. 단순히 정답 여부만 판단하는 기존 방식에서 벗어나 풀이 과정에서 어떤 개념이 잘못 적용됐는지를 단계별로 설명할 수 있어, 교육 현장에서 요구돼 온 ‘과정 중심 평가’에도 자연스럽게 부합한다.

모델 규모가 7B에 불과하면서도 12B~30B 모델보다 높은 성능을 보였다는 점은 실용성과 확장성에서도 의미가 크다. 고성능 GPU가 없는 환경이나 프라이버시 제약이 있는 교육기관, 비용 제약이 큰 공공 분야에서도 활용할 수 있다. EVPM과 SFT·GRPO 조합으로 구성된 전체 구조는 이후 멀티모달 추론 연구에서 재사용 가능한 기반이 되며, 복잡한 수식 이해를 포함한 다양한 시각–언어 융합 문제의 확장 가능성을 보여준다.

 

[붙임] 용어설명

 

1.비전-언어 모델 (Vision-Language Model, VLM)

대형 언어모델 (LLM)을 비전 (이미지 등) 데이터를 이해할 수 있도록 확장한 인공지능 모델. 이미지와 글이라는 서로 다른 모달리티의 데이터를 사용하기 때문에 멀티모달 LLM 이라고도 부름.

2.지도 미세조정(Supervised Fine-Tuning, SFT)

모델이 목표로 하는 형태의 출력을 스스로 생성할 수 있도록 예시 데이터를 기반으로 학습시키는 과정이다. 이번 연구에서는 기존 텍스트 모델이 수행하던 평가와 추론 방식을 모델이 따라갈 수 있도록, 고품질 예시를 이용한 증류(distillation) 형태의 SFT를 적용해 기본적인 채점·추론 능력을 갖추도록 했다. 강화학습 단계로 넘어가기 위한 기초 능력을 다지는 역할을 한다.

3.강화학습(Reinforcement Learning, GRPO 기반 최적화)

모델이 출력 결과를 바탕으로 보상을 받고, 그 보상을 최대화하는 방향으로 스스로 학습하는 방식이다. 이번 연구에서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 를 적용해 여러 보상 요소—정답 여부, 오류 설명의 적절성, 추론의 충실도 등—를 함께 고려해 모델이 더 나은 출력을 선택하도록 만들었다. 단일 기준이 아닌 복합 기준을 균형 있게 최적화할 수 있다는 점이 특징이다.

4.시각 프롬프팅(Visual Prompting)

비전-언어 모델에 이미지를 입력할 때, 모델이 내용을 더 정확히 이해하도록 필요한 시각 정보를 함께 얹어 주는 방식이다. 단순히 이미지를 그대로 넣는 것이 아니라, 이미지 안에서 중요한 부분을 표시하거나 구조화해 모델이 무엇을 우선적으로 봐야 하는지 알려주는 장치에 가깝다. 이번 연구에서는 이 개념을 손글씨 수식에 맞게 확장해, 수식의 위치와 형태를 이미지 위에 회전된 박스 형태로 표시해 주는 방식으로 구현했다. 이렇게 구조화된 정보가 함께 제공되면, 모델은 기울어진 수식이나 여러 줄로 흩어진 표현의 순서를 놓치지 않고 전체 풀이 흐름을 더 정확하게 따라갈 수 있다.

 

[붙임] 그림설명

그림1. 손글씨 수학 풀이를 단계별로 분석하는 베미(VEHME)의 채점 과정. VEHME는 수학 질문, 학생의 손글씨 풀이 이미지, 그리고 정답 풀이를 함께 입력받아 전체 흐름을 비교·분석한다. 학생 풀이에서 사용된 계산 과정과 논리적 연결을 차례로 점검해 정답 여부를 판단하고, 잘못된 단계가 있을 경우 그 위치와 이유를 함께 설명한다. 그림은 학생이 적은 손글씨 풀이와 정답 풀이를 대응시키며 오류를 찾아내는 VEHME의 동작 방식을 보여준다.

그림2. 베미(VEHME) 모델의 전체 구조. VEHME는 먼저 지도 미세조정(SFT) 단계에서 QwQ-32B가 생성한 고품질 추론 데이터를 학습해 기본적인 채점·추론 능력을 갖춘다. 이후 GRPO 기반 강화학습 단계에서 여러 후보 출력의 상대적 우수성을 비교하며, 정답 여부·오류 설명의 타당성 등을 포함한 복합 보상을 이용해 출력을 정교하게 조정한다. 손글씨 수식은 학습 과정에서 ‘수식 인식 시각 프롬프트(Expression-aware Visual Prompting)’ 모듈을 통해 구조화되어 모델에 입력되며, 이 두 과정이 결합되어 VEHME의 최종 채점 성능이 완성된다. 그림은 이러한 전체 학습 흐름을 두 단계로 나누어 보여준다.