엑사원(EXAONE) 로고. LG 제공LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원 4.5'를 9일 공개했다.
엑사원 4.5는 LG AI연구원이 지난 2021년 국내 최초의 멀티모달 AI 모델인 엑사원 1.0을 만들며 축적한 기술력을 토대로 자체 개발한 비전·언어 모델(VLM)이다. 특히 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고, 추론하는 능력이 강점으로 꼽힌다.
LG AI연구원에 따르면 '엑사원 4.5'는 STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평가에서 평균 77.3점을 기록해 미국 오픈AI의 지피티5-미니(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞섰다.
일반 시각 이해를 측정하는 3개 지표와, 전문 문헌 속 복합 정보를 읽어내는 문서 이해·추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 지피티5-미니와 클로드 소넷 4.5, 큐웬3-VL을 웃도는 성능을 보였다는 설명이다.
엑사원 4.5 글로벌 동급 모델들과의 STEM 벤치마크 성능 비교. LG 제공특히 코딩 성능 대표 지표인 라이브코드벤치 v6에서는 81.4점으로 구글의 최신 모델 젬마 4(80.0점)를 넘었으며, 복잡한 차트를 분석하고 추론하는 능력을 평가하는 차트큐에이 프로(ChartQA Pro)에서는 62.2점을 받아 동급 모델과의 비교에서 글로벌 경쟁력을 입증했다고 LG AI 연구원은 밝혔다.
연구원 관계자는 "시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 건 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어, 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미"라고 부연했다.
엑사원 4.5는 효율성 측면에서도 주목할 만한 결과를 보였다. 이 모델은 330억 개 파라미터 규모(33B)로서, 작년 말 공개된 'K-엑사원'의 약 7분의 1 크기이지만 텍스트 이해와 추론 영역에서 동등한 수준의 성능을 달성했다.
이날 LG AI연구원은 엑사원 4.5를 글로벌 오픈소스 플랫폼인 허깅페이스(Hugging Face)에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다.
이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라며 "이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다"고 포부를 밝혔다.
LG AI연구원은 엑사원을 한국의 역사와 문화, 사회적 맥락까지 깊이 이해하는 AI로 발전시키기 위한 노력도 기울이고 있다. 올해 1월에는 동북아역사재단으로부터 데이터를 제공받아 학습을 진행하고 있으며, 고품질 데이터를 보유한 국내 다른 기관들과의 협업도 논의 중이다.
김명신 LG AI연구원 신뢰안전사무국 총괄은 "한국어 능력을 갖춘 AI는 늘고 있지만, 역사와 문화적 민감성을 깊이 이해하는 것은 차원이 다른 문제"라며 "엑사원은 자체 설계한 AI 위험 분류체계를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것"이라고 말했다.