📋 목차
혹시 수학 시험지 채점하는 것을 보신 적 있으신가요? 특히 주관식 문제들은 풀이가 길고, 사람마다 글씨도 달라서 채점하는 데 시간이 정말 많이 걸립니다. 선생님들도 이 부분 때문에 항상 힘들어하셨죠.
이런 어려운 문제를 해결하기 위해 멋진 인공지능이 등장했습니다. 바로 AI 수학 채점 모델 베미(VEHME)입니다. 베미는 삐뚤빼뚤한 손글씨 수학 답안까지 사람처럼 이해하고 채점해준다고 하는데요. 오늘은 이 똑똑한 AI에 대해 자세히 알아보겠습니다.
1. 왜 AI 수학 채점이 필요해졌을까요?
쌓여있는 수학 답안지를 채점하며 지쳐있는 선생님의 모습
수학 주관식 답안 채점은 선생님들에게 항상 큰 부담이었습니다. 수식과 그래프, 도형이 섞여 있고, 풀이가 종이에 자유롭게 배치되어 있으며, 학생마다 필체가 너무나 다르기 때문입니다. 사람이 아니면 이해하기 어려운 복잡한 영역이라고 할 수 있습니다.
기존에 개발된 AI 채점 기술들은 주로 OMR 카드나 객관식 문제 자동 채점에 머물러 있었습니다. 손글씨 수학 풀이를 사람처럼 따라가며 '어디서 왜 틀렸는지'를 짚어주는 수준의 AI는 없었던 것이죠. 기존 기술은 글씨를 먼저 인식해야 했는데, 글씨가 삐뚤거나 식이 복잡하면 오류가 많이 발생했습니다.
- 주관식 수학 채점은 시간 소모가 크고 자동화가 어려웠습니다.
- 기존 AI는 손글씨 풀이의 논리적 흐름을 이해하지 못했습니다.
- 악필이나 복잡한 풀이에서 오류가 자주 발생했습니다.
이런 어려움 때문에 교육 현장에서는 채점 부담을 줄이고, 학생들의 학습 격차를 해소할 수 있는 새로운 AI 수학 채점 기술에 대한 요구가 점점 커졌습니다. 이런 요구를 해결하기 위해 태어난 모델이 바로 베미(VEHME)입니다.
2. 베미(VEHME)는 어떤 AI 수학 채점 모델인가요?
태블릿으로 AI 채점 피드백을 받는 학생의 모습
베미는 울산과학기술원(UNIST)의 김태환 교수님과 포항공과대학교(POSTECH)의 고성안 교수님 연구팀이 함께 개발한 특별한 AI 수학 채점 모델입니다. 2024년 12월 17일에 세상에 공개되었으며, 자연어처리 분야의 중요한 국제 학회인 EMNLP에 정식 논문으로 채택될 정도로 기술력을 인정받았습니다.
이 AI의 가장 큰 목표는 수학 풀이 이미지를 보고 단순하게 정답만 맞히는 것이 아닙니다. 마치 사람 선생님처럼 풀이 과정을 쭉 따라가며 '어디서, 왜 틀렸는지'를 설명해주고, 심지어 첨삭까지 해주는 AI 교사 모델을 지향하고 있습니다.
베미(VEHME)의 특징 📝
- 개발 주체: UNIST 김태환 교수, POSTECH 고성안 교수 공동 연구팀
- 공개 시점: 2024년 12월 17일
- 핵심 목표: 풀이 흐름을 이해하고, 오류 원인을 설명하며 첨삭까지 수행
- 활용: 교육 격차 해소를 위한 오픈소스 및 무료 활용 가능
베미는 더 많은 학생들이 좋은 교육을 받을 수 있도록 오픈 소스 모델로 공개되었으며, 학교나 학원 같은 교육기관에서 무료로 사용할 수 있도록 만들어졌다고 합니다. 정말 멋진 소식이죠.
3. 악필도 읽어내는 베미의 특별한 기술
복잡한 수식과 도형을 시각적으로 구획하는 모습
베미가 악필이나 삐뚤빼뚤한 수학 답안을 잘 읽어낼 수 있는 것은 특별한 기술 덕분입니다. 베미는 손글씨를 먼저 텍스트로 바꾸는 복잡한 과정을 거치지 않습니다. 대신 이미지 자체를 직접 입력받아 공간 구조를 파악하고 바로 채점까지 해내는 '이미지 직독(End-to-End)' 방식을 사용합니다.
특히 연구진이 새롭게 개발한 '수식 인식 시각 프롬프트(EVPM)' 기술이 핵심입니다. 이 기술은 복잡하게 얽힌 수식을 가상의 박스로 나누어, 풀이 순서를 놓치지 않고 따라갈 수 있게 도와줍니다. 덕분에 식, 그래프, 기호가 섞인 답안에서도 AI가 스스로 '무엇을 먼저 봐야 할지', '다음에는 무엇을 봐야 할지'를 파악합니다.
베미의 핵심 기술 구조 🚀
- 이미지 직독(End-to-End): 글자를 텍스트로 바꾸는 중간 과정 없이 이미지 자체로 채점합니다.
- EVPM(Expression Visual Prompting Module): 복잡한 수식을 가상 박스로 나눠 풀이 순서를 구조화합니다.
- 풀이 흐름 추적: 수식의 위치와 문맥을 함께 읽어 사람이 풀 듯 추론합니다.
- 2단계 강화학습: 정답 여부뿐 아니라 틀린 이유까지 설명하도록 학습합니다.
또한, 베미는 수식의 위치 정보와 논리 흐름을 함께 읽어서 사람이 문제를 풀듯이 한 줄 한 줄 따라가며 추론합니다. 이 덕분에 중간 계산을 건너뛰거나 단계를 잘못 이어 붙인 경우도 비교적 잘 찾아낼 수 있습니다. 이중 학습 기법을 통해 단순히 정답만 맞히는 것을 넘어, '어느 부분이 왜 틀렸는지'까지 자세히 설명할 수 있도록 설계되었습니다.
4. 베미는 AI 수학 채점을 어떻게 '사람처럼' 할까요?
AI가 오류 단계를 지적하고 피드백을 제공하는 모습
베미는 정말 사람처럼 채점합니다. 먼저 답안지 이미지에서 풀이가 적힌 영역, 수식, 그래프, 도형 등을 구분하여 답안의 공간 구조를 파악합니다. 그 다음 EVPM 기술을 활용하여 정해진 순서에 따라 식 전개를 읽고, 문제가 요구하는 답과 논리적으로 잘 연결되는지 판단합니다.
채점 결과는 단순한 정답/오답 판정으로 끝나지 않습니다. 어느 단계에서 계산, 개념, 추론 오류가 발생했는지 자세히 설명하고, 필요하면 올바른 풀이 방향까지 제시하며 첨삭을 수행합니다. 마치 옆에서 선생님이 직접 설명해주는 것과 같습니다.
- 공간 구조 파악: 답안지 이미지에서 풀이 영역, 수식, 도형 등을 구분합니다.
- 풀이 흐름 이해: EVPM으로 식 전개를 읽고, 논리적 연결성을 판단합니다.
- 채점 및 첨삭: 정오답 판정 후 오류 원인을 설명하고, 올바른 풀이 방향을 제시합니다.
이러한 기능 덕분에 베미는 최종 답이 틀렸더라도 중간 풀이 과정이 맞았다면 이를 구분하여 부분 점수를 줄 수도 있습니다. '이 단계에서 부호를 잘못 처리했다', '이 공식 적용 조건이 맞지 않는다'와 같이 구체적인 틀린 이유를 자연스러운 말로 설명하는 첨삭 기능이 특징입니다. 이는 AI 수학 채점의 새로운 기준을 제시합니다.
5. 글로벌 AI와 비교한 베미의 놀라운 성능
베미와 글로벌 AI 모델들의 성능 비교 차트
베미는 약 70억 개(7B)의 파라미터를 사용하는 비교적 작은 모델입니다. 반면 우리가 잘 아는 GPT-4o나 제미나이 2.0 Flash 같은 글로벌 AI는 수천억 개 이상의 파라미터를 가진 아주 큰 모델들입니다. 그런데도 베미의 성능은 정말 놀랍습니다.
미적분부터 초등 산수까지 다양한 수준의 수학 답안을 대상으로 한 실험에서, 베미는 GPT-4o, 제미나이 2.0 Flash와 거의 비슷한 수준의 채점 정확도를 보였다고 합니다. 이것만 해도 대단한데, 특히 답안지가 심하게 회전되어 있거나 글씨가 아주 엉망인 어려운 환경에서는 베미가 오히려 글로벌 거대 모델보다 더 정확하게 오류를 찾아냈다고 합니다.
| AI 모델 | 파라미터 수 (규모) | 주요 특징 | 악필/회전 답안 채점 정확도 |
|---|---|---|---|
| 베미(VEHME) | 약 70억 개 (7B) | 수학 풀이 이미지 직독, EVPM 활용 | 상용 거대 모델보다 우세 |
| GPT-4o, 제미나이 2.0 Flash | 수천억 개 이상 | 일반 목적의 거대 언어 모델 | 베미와 동급 수준 |
이러한 결과는 베미의 EVPM과 이미지 직독(End-to-End) 방식이 악조건의 손글씨 수학 풀이에서 큰 강점을 가진다는 것을 보여줍니다. 연구진은 베미가 실제 교육 현장에서 바로 사용할 수 있을 정도로 안정적이라고 강조합니다. 이 AI 수학 채점 모델은 규모 대비 성능이 매우 뛰어나다고 평가받고 있습니다.
6. 데이터 부족을 이겨낸 베미의 똑똑한 전략
합성 데이터를 생성하는 AI 연구실의 모습
주관식 수학 채점 AI를 만들려면 다양한 필체와 난이도의 손글씨 풀이 이미지, 그리고 사람이 채점하고 첨삭한 정교한 데이터가 아주 많이 필요합니다. 하지만 이런 데이터를 실제로 모으는 것은 저작권, 개인 정보, 그리고 비용 문제 때문에 매우 어렵습니다.
베미 연구진은 이 데이터 부족 문제를 해결하기 위해 아주 똑똑한 방법을 사용했습니다. 바로 QwQ-32B라는 거대 언어 모델을 이용해 '합성(synthetic) 데이터'를 만들어낸 것입니다. 이 모델을 통해 다양한 수학 문제와 풀이, 오답 패턴, 그리고 첨삭 예시들을 직접 생성하여 베미 학습에 활용했습니다.
데이터 확보 전략 💡
- 문제점: 손글씨 수학 풀이 및 첨삭 데이터 부족.
- 해결책: 거대 언어 모델 QwQ-32B를 활용하여 합성 데이터 생성.
- 결과: 합성 데이터와 실제 데이터의 결합으로 일반화 성능과 악조건 강인성 확보.
이렇게 만들어진 합성 데이터와 실제로 수집한 손글씨 데이터를 함께 사용하여 베미를 훈련시켰습니다. 덕분에 베미는 어떤 조건에서도 잘 작동하는 '일반화 성능'과 악필, 회전된 답안 등 어려운 상황에서도 강한 '강인성'을 동시에 가질 수 있게 되었습니다. 이 데이터 전략은 앞으로 다른 과목의 서술형 채점 AI 수학 채점 개발에도 큰 도움이 될 것입니다.
7. 교육 현장에서 베미가 가져올 변화
AI의 도움으로 학생 개개인에게 집중하는 교사의 모습
베미는 교육 현장에 정말 많은 변화를 가져올 것입니다. 먼저 선생님들은 대량의 주관식 수학 답안을 AI가 1차적으로 채점하고 첨삭한 뒤, 애매한 문제나 어려운 문항만 최종적으로 검토하게 될 것입니다. 덕분에 반복적인 채점 업무가 크게 줄어들어, 선생님들은 학생 개별 피드백, 수업 설계, 상담 등 '사람만이 할 수 있는' 중요한 일에 더 많은 시간을 쓸 수 있습니다.
학생들 입장에서는 시험이나 과제에 대한 피드백을 바로 받을 수 있다는 것이 가장 큰 장점입니다. 어디서 잘못 생각했는지 구체적인 설명을 들을 수 있어, 스스로 오답 노트를 체계적으로 정리하고 학습하는 데 큰 도움을 받을 수 있습니다. 특히 학원이나 과외를 받기 어려운 지역의 학생들에게 베미 기반 서비스는 무료 또는 저렴한 비용으로 온라인 AI 수학 선생님 역할을 해줄 가능성이 큽니다.
베미 활용 시나리오 🏫
- 교사: 채점 업무 부담 감소, 개별 피드백 및 수업 질 향상.
- 학생: 즉각적인 피드백, 구체적인 오류 설명으로 자기 주도 학습 강화.
- 교육기관/에듀테크: 채점 자동화 시스템 구축, 맞춤형 학습 콘텐츠 개발.
학교나 학원 같은 교육기관은 베미를 시스템에 연동하여 시험 채점 자동화에 활용할 수 있고, 이를 통해 학생별 취약점을 분석하고 맞춤형 학습 콘텐츠를 추천하는 서비스도 기획할 수 있습니다. 에듀테크 기업들에게는 주관식 수학 자동 채점 API나 플랫폼 개발 등 새로운 비즈니스 기회를 제공할 것입니다.
8. AI 수학 채점 그 이상, 베미의 미래는?
베미 기술이 다양한 산업에 적용되는 모습
베미의 기술은 단순히 AI 수학 채점에만 국한되지 않습니다. 복잡하게 배열된 시각 정보를 자동으로 정리하고 이해하는 EVPM 모듈과 여러 정보를 동시에 추론하는 멀티모달 구조는 다양한 산업 분야에서 활용될 가능성이 매우 큽니다.
예를 들어, 공학 설계 도면에서 복잡한 부품들의 관계를 자동으로 이해하거나, 손으로 쓴 장부나 의료 기록 차트를 디지털화하는 업무에도 응용될 수 있습니다. 베미는 교육 분야를 넘어 우리 생활 곳곳에서 편리함을 가져다줄 수 있는 잠재력을 가지고 있습니다.
- 문서 인식: 복잡한 수기 문서의 자동 인식 및 디지털화.
- 설계 도면 분석: 공학 설계도 등 전문 도면의 부품 관계 이해.
- 수기 기록물 디지털화: 수기 장부, 의료 차트 등 아날로그 기록의 디지털 전환.
앞으로 베미가 어떤 새로운 분야에서 활약하게 될지 정말 기대가 됩니다. 이처럼 AI 수학 채점 기술은 우리 사회에 긍정적인 영향을 미칠 혁신적인 기술이라고 할 수 있습니다.
글의 핵심 요약 📝
오늘 우리는 UNIST와 POSTECH 공동 연구팀이 개발한 획기적인 AI 수학 채점 모델, 베미(VEHME)에 대해 자세히 살펴보았습니다.
AI 수학 채점, 베미(VEHME) 핵심 요약
자주 묻는 질문 ❓
오늘 AI 수학 채점의 새로운 지평을 연 베미(VEHME)에 대해 알아보았습니다. 이 기술이 우리 교육의 미래를 얼마나 더 밝게 만들지 기대가 됩니다. 혹시 더 궁금한 점이 있다면 댓글로 물어봐주세요~ 😊