한국산 AI, 수학 풀이 평가서도 세계신기록

국내 인공지능(AI) 개발 스타트업 업스테이지는 매스프레소 및 KT와 함께

협력하여 수학에 특화된 AI 모델을 개발했습니다.

이 모델은 오픈AI와 마이크로소프트(MS)가

개발한 모델보다 우수한 성능을 보여줍니다.

이를 통해 업스테이지는 국내외에서 많은 관심을 받고 있으며,

수많은 기업과 제휴하여 다양한 분야에서 활용될 것으로 기대됩니다.

업스테이지는 공동 개발한 수학 특화 언어모델 ‘MathGPT’가

언어 모델의 수학 능력을 평가하는 대표 성능 평가(벤치마크) 시험인

‘MATH’와 ‘GSM8K’에서 동등한 경쟁자인 MS ‘ToRA 13B’를 능가하여 세계 신기록을 세웠습니다.

MATH는 1만2500개의 고난도 수학 경기 문제로 구성되어 있으며,

GSM8K는 8500개의 초등학교 수학 문제로 산술 연산 능력을 평가하는 성능 평가 체계입니다.

매개변수(파라미터) 130억개 이하 모델 중에서도 1위에 해당하는 세계 신기록이며

이러한 성과를 동시에 달성한 경우는 세계적으로도 매우 희귀한 일이라고 할 수 있습니다.

업스테이지는 수학 풀이용 AI 학습 플랫폼 ‘콴다’를 매스프레소와

KT와 함께 전략적 파트너십을 맺었습니다.

이 파트너십은 지난해 11월부터 MathGPT 개발을 시작합니다.

MathGPT는 메타의 개방형 AI 모델인 라마를 기반으로 학습되었으며,

콴다의 고품질 수학 전문 데이터를 활용하여 미세조정(파인튜닝)을 거쳐

자연어 기반 언어모델이 논리적 추론과 프로그래밍화를 통해

복잡한 수학 문제를 해결할 수 있도록 개선되었습니다.

이 과정에서 KT는 관련 인프라를 지원하였습니다.

이로써 MathGPT는 성능 평가 시험에서 AI 성능 기준인 매개변수가

수천억개에서 1조개 이상이라고 평가받는 오픈 AI의 거대언어모델

‘GPT-4′까지 능가하는 성과를 보여주었습니다.

관련글