HPE·엔비디아 '엑사스케일 AI 팩토리' 선언... 슈퍼컴퓨팅 인프라 대전환
휴렛팩커드 엔터프라이즈(HPE)가 엔비디아와 협력해 컴퓨트, 네트워크, 액체 냉각을 통합한 엑사스케일급 AI 인프라를 공개하며 초거대 모델 학습 시장 선점에 나섰다. 리드 및 본문
베라 CPU 및 800Gb/s 퀀텀-X800 네트워크 업계 최초 적용
수조 개 파라미터급 모델 대응하는 풀스택 AI 아키텍처 완성
아르곤 국립연구소 등 글로벌 거점에 차세대 GX5000 공급
인공지능(AI) 경쟁의 패러다임이 모델 성능을 넘어 이를 뒷받침하는 인프라 역량으로 급격히 이동하고 있다. 휴렛팩커드 엔터프라이즈(HPE)는 엔비디아(NVIDIA)와 손잡고 차세대 AI 팩토리 및 슈퍼컴퓨팅 혁신 전략을 발표하며, 엑사스케일급 AI 인프라 시장의 독보적 지위 굳히기에 들어갔다. 이번 발표의 핵심은 단순한 하드웨어 공급을 넘어 GPU, 네트워킹, 소프트웨어, 그리고 고도화된 액체 냉각 기술을 하나로 묶은 '풀스택 AI 아키텍처'를 제시했다는 점이다.
베라 CPU와 800G 네트워크가 만든 기술적 도약
이번 혁신의 선봉에는 HPE의 차세대 슈퍼컴퓨팅 플랫폼인 'HPE Cray Supercomputing GX5000'이 있다. 이 시스템은 과학 연구용 고성능컴퓨팅(HPC)과 초대형 AI 연산을 단일 인프라에서 처리할 수 있도록 설계된 2세대 엑사스케일 플랫폼이다. 특히 업계 최초로 엔비디아의 '베라(Vera) CPU' 기반 컴퓨트 블레이드를 도입해 물리적 집적도를 극대화했다. 랙 단위에서 수만 개의 Arm 코어를 확장할 수 있는 이 구조는 대규모 AI 워크로드를 처리하는 데 최적의 안정성을 제공한다.
네트워킹 측면에서의 변화도 파괴적이다. HPE는 '엔비디아 퀀텀-X800 인피니밴드' 스위치를 적용해 포트당 800Gb/s라는 경이로운 데이터 전송 속도를 구현했다. 이는 AI 학습 과정에서 고질적인 병목 현상으로 지목되던 데이터 이동 문제를 획기적으로 개선하여, 대규모 클러스터 환경에서의 효율성을 극대화하는 결정적 요소로 평가받는다.
1조 개 파라미터 시대를 여는 'AI 팩토리' 확장
HPE는 슈퍼컴퓨팅 플랫폼 외에도 초거대 AI 모델 학습을 위한 'AI 팩토리' 포트폴리오를 대폭 강화했다. 새롭게 공개된 엔비디아 '베라 루빈(Vera Rubin)' 및 '블랙웰(Blackwell)' 기반 시스템은 1조 개 이상의 파라미터를 가진 프론티어급 모델을 처리할 수 있는 성능을 갖췄다. 특히 'HPE Compute XD700' 서버는 랙당 최대 128개의 GPU를 지원하며, 전력 효율과 공간 활용도를 동시에 확보해 데이터센터의 운영 부담을 크게 낮췄다.
이러한 인프라 혁신은 이미 글로벌 연구 현장에 투입되고 있다. 미국의 아르곤 국립연구소를 비롯해 독일의 HLRS, 허드슨 리버 트레이딩(HRT) 등 유수의 기관들이 HPE의 차세대 시스템을 도입했다. HPE의 트리시 담크로거 수석부사장은 "AI와 HPC의 융합이 의학, 생명과학, 제조 등 전 산업 분야에서 기존의 한계를 뛰어넘는 핵심 동력이 되고 있다"고 강조하며 산업 지형의 변화를 예고했다.
운영 복잡성 해결하는 지능형 소프트웨어 생태계
인프라 구축 이후의 최대 과제인 '운영의 복잡성'을 해결하기 위한 소프트웨어 전략도 구체화됐다. HPE는 엔비디아 미션 컨트롤(Mission Control)을 통해 AI 워크로드의 오케스트레이션과 모니터링, 자율 복구 기능을 제공한다. 또한 레드햇(Red Hat) 오픈시프트와의 통합을 통해 기업 환경에서의 유연한 AI 배포를 지원하며, 멀티테넌시 기능을 통해 하나의 GPU 자원을 여러 워크로드가 효율적으로 나눠 쓸 수 있는 환경을 구축했다.
이번 HPE와 엔비디아의 협력은 국가 단위의 AI 경쟁력과 기업의 혁신 속도를 결정짓는 분수령이 될 것으로 보인다. 이제 AI 경쟁의 승부는 누가 더 똑똑한 모델을 만드느냐를 넘어, 그 모델을 얼마나 빠르고 안정적으로 학습시켜 실제 서비스로 연결할 수 있는 '인프라 주권'을 확보하느냐에 달려 있기 때문이다. HPE가 제시한 AI 팩토리 전략은 초거대 AI 시대의 새로운 표준 인프라로서 글로벌 패권 경쟁의 핵심 기반이 될 전망이다.