LG, 멀티모달 AI 모델 '엑사원 4.5' 공개
LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했다. 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)로, 계약서·기술 도면·재무제표·스캔 문서 등 산업 현장의 복합 문서를 정확히 읽고 추론하는 데 강점을 발휘한다.
GPT-5 mini·클로드 소넷 4.5·큐웬3 상회
허깅페이스 오픈 웨이트 무료 공개
LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했다. 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)로, 계약서·기술 도면·재무제표·스캔 문서 등 산업 현장의 복합 문서를 정확히 읽고 추론하는 데 강점을 발휘한다.
성능 면에서 엑사원 4.5는 글로벌 주요 모델들과 직접 비교에서 경쟁력을 입증했다. 과학·기술·공학·수학(STEM) 성능을 측정하는 5개 지표 평균에서 77.3점을 기록해 오픈AI 지피티(GPT)5-mini(73.5점), 앤트로픽 클로드 소넷(Claude Sonnet) 4.5(74.6점), 중국 알리바바 큐웬(Qwen)3 235B(77.0점)을 모두 앞섰다. 일반 시각 이해·문서 추론 등 13개 지표 평균에서도 동일한 순서로 앞섰으며, 코딩 성능 지표 라이브코드벤치(LiveCodeBench) v6에서는 81.4점으로 구글 젬마(Gemma) 4(80.0점)를 넘었다.
규모 대비 효율성도 주목할 만하다. 엑사원 4.5는 330억 개 파라미터(33B) 규모로, 지난해 말 공개한 K-엑사원의 약 7분의 1 크기다. 그러나 텍스트 이해·추론 영역에서는 동등한 수준의 성능을 달성했다. 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과다. 지원 언어도 기존 한국어·영어에서 스페인어·독일어·일본어·베트남어까지 확장했다.
이번 모델은 독자 AI 파운데이션 모델 'K-엑사원'의 멀티모달 확장을 위한 기술적 토대로도 의미가 있다. LG AI연구원은 향후 음성·영상·물리 환경까지 AI의 이해 범위를 넓혀 산업 현장에서 실질적으로 판단하고 행동하는 '피지컬 인텔리전스'로 발전시키는 것을 목표로 하고 있다.
오픈 생태계 기여 차원에서 엑사원 4.5는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 연구·학술·교육 목적으로 무료 공개됐다.
한국 문화·역사에 특화된 AI로의 진화도 추진 중이다. LG AI연구원은 올해 1월 동북아역사재단으로부터 데이터를 제공받아 학습을 진행하고 있으며, 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 신뢰성을 강화하고 있다.
이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라고 밝혔다.