아크릴, AI 데이터센터 학습 속도 24배 향상 ‘GPUBase’ 성능 검증

‘K-Scale Evaluation’ 첫 단계 완료… GPU 1,272개 규모 검증

아크릴은 AI 인프라 운영 플랫폼 ‘GPUBase’의 대규모 성능 검증 1단계를 완료했다. 아크릴은 세계 주요 클라우드 환경에서 검증한 ‘K-Scale Evaluation’의 첫 번째 단계(Horizontal Phase)에서 학습 속도가 최대 24배 빠른 것으로 나타났다고 1일 밝혔다.

이번 검증은 GPUBase가 특정 클라우드나 단일 환경에 종속되지 않고 다양한 AI 데이터센터 인프라에서 안정적으로 작동하는지 확인하기 위해 진행됐다. 아크릴은 글로벌 3대 클라우드 서비스 제공업체(CSP) 환경에서 7종의 GPU 총 1,272개를 활용해 대규모 AI 학습·추론·운영 성능을 점검했다.

대규모 AI 데이터센터는 GPU 개별 성능뿐 아니라 여러 GPU가 데이터를 주고받는 네트워크와 운영 구조가 전체 성능을 좌우한다. GPUBase는 GPU 작업 배분, 데이터 이동 경로, 병목 구간, 전송 우선순위 등을 통합 조율해 대규모 환경에서 발생하는 작업 지연을 줄이는 플랫폼이다.

검증 결과 GPUBase는 작업 부하가 커질수록 성능 개선 효과가 두드러졌다. 대규모 언어모델(LLM) 학습에서 GPUBase 적용 환경은 처리 속도를 안정적으로 유지한 반면, 미적용 환경은 고부하 상황에서 속도가 크게 저하됐다. 이에 따라 학습 시간은 약 96% 줄었고, 동일 작업 기준 최대 24배 빠른 처리 성능을 기록했다.

서비스 응답 단계에서도 안정성이 확인됐다. GPUBase는 요청이 몰리는 상황에서도 응답 성능 편차를 최소화했으며, 학습과 추론이 동시에 수행되는 AI 데이터센터 운영 환경에서도 서비스 품질 기준을 충족했다. 특히 GPU 간 데이터가 집중되는 구간에서는 데이터 처리량이 미적용 대비 약 24배, 비율로는 2,375%까지 증가했다.

운영 측면에서도 성과가 확인됐다. GPUBase는 서로 다른 7종의 GPU가 혼재된 환경에서 수천 건의 작업을 중단 없이 배분했으며, GPU 활용률 90% 이상을 달성했다. 작업 대기 시간은 최대 93%, 전체 완료 시간은 최대 34% 줄었다. 또한 18가지 장애 상황을 모두 5분 안에 감지·복구해 AI 데이터센터 실운영 안정성도 입증했다.

GPUBase의 핵심 기술은 아크릴 CTO이자 성균관대 소프트웨어학과 교수인 염익준 박사가 25년 이상 축적해 온 컴퓨터 네트워크 연구를 기반으로 한다. 아크릴은 데이터 전송 경로를 분산하는 PeRF 기술과 여러 경로를 동시에 활용하는 UL-MPRDMA 기술을 GPUBase에 적용해 AI 학습·추론 효율을 높였다.

아크릴은 과학기술정보통신부의 ‘AI 클라우드 경쟁력 강화 기술개발 사업’에서 네트워크 분야 주관기관으로 선정된 바 있다. 회사는 GPUBase를 통해 GPU, 서버, 저장장치, 네트워크를 하나의 시스템으로 통합 운영하는 AI 데이터센터 인프라 플랫폼 시장을 공략할 계획이다.

염익준 아크릴 최고기술책임자(CTO)는 “대규모 AI의 성능은 GPU 간 연결과 데이터 전송 효율에 달려 있다”며 “이번 검증을 통해 GPUBase가 글로벌 클라우드와 천 장 규모 GPU 환경에서도 안정적으로 작동한다는 점을 확인한 만큼, 더 큰 클러스터와 장시간 운영 환경에서도 확장성과 안정성을 지속 검증해 나가겠다”고 말했다