텍스트·이미지 동시에 이해하는 비전언어 모델
STEM 평가서 GPT5-mini 등 주요 모델 앞서
/LG 제공
LG AI연구원이 텍스트와 이미지를 동시에 이해하는 멀티모달 인공지능(AI) 모델을 공개하며 글로벌 AI 경쟁에 속도를 내고 있다.
LG AI연구원은 9일 멀티모달 AI 모델 ‘엑사원(EXAONE) 4.5’를 공개했다고 밝혔다.
‘엑사원 4.5’는 비전 인코더와 거대언어모델을 결합한 비전-언어 모델(VLM)로 계약서와 기술 도면, 재무제표 등 산업 현장의 복합 문서를 이해하고 추론하는 능력을 강화한 것이 특징이다.
성능 평가에서 STEM 분야 5개 지표 평균 77.3점을 기록해 오픈AI GPT5-mini와 앤트로픽 Claude Sonnet 4.5, 알리바바 Qwen3 235B를 모두 앞섰다.
일반 시각 이해와 문서 이해 능력을 포함한 13개 평가 지표 평균에서도 GPT5-mini, Claude Sonnet 4.5, Qwen3-VL을 상회하는 성능을 기록했다.
또 코딩 성능 지표인 LiveCodeBench v6에서는 81.4점을 기록해 구글 Gemma 4보다 높은 점수를 나타냈다.
‘엑사원 4.5’는 330억개 파라미터 규모로 지난해 공개된 ‘K-엑사원’보다 모델 크기는 작지만 텍스트 이해와 추론 성능은 유사한 수준을 달성했다.
LG AI연구원은 이 모델을 글로벌 오픈소스 플랫폼 허깅페이스에 공개해 연구·교육 목적으로 활용할 수 있도록 했다.
Copyright ⓒ 디지틀조선일보 - 디지틀조선TV