WEKA는 NVIDIA STX 레퍼런스 아키텍처와 NeuralMesh 플랫폼을 통합한다고 발표했으며, 이를 통해 Augmented Memory Grid를 차세대 AI 인프라의 핵심 구성 요소로 자리매김했습니다. 이 통합 솔루션은 대규모 추론 환경에서 성능, 총 소유 비용 및 확장 가능한 성장에 직접적인 영향을 미치는 메모리 제약이라는 가장 중요한 병목 현상을 해결합니다.
NeuralMesh를 통해 작동하는 WEKA의 Augmented Memory Grid는 키-값 캐시를 외부화하고 지속시켜 GPU 메모리를 확장합니다. NVIDIA STX와 함께 배포될 때 이 아키텍처는 에이전트 AI 워크로드에 대한 고처리량 컨텍스트 메모리 스토리지를 제공하여 세션, 도구 및 엔드투엔드 워크플로우 전반에 걸쳐 긴 컨텍스트 추론을 지원합니다. 회사에 따르면 NVIDIA Vera Rubin NVL72 시스템, BlueField-4 DPU 및 Spectrum-X 이더넷을 결합한 구성은 컨텍스트 메모리 토큰 처리량을 4배에서 10배까지 높일 수 있습니다. 이 플랫폼은 또한 전통적인 AI 스토리지 아키텍처의 성능을 두 배 이상 능가하는 초당 320GB 이상의 읽기 및 초당 150GB 이상의 쓰기 처리량을 제공할 것으로 예상됩니다.
메모리 인프라가 추론 병목 현상이 되다
WEKA는 이러한 통합을 최신 AI 배포에서 증가하는 메모리 벽 문제에 집중합니다. 오늘날의 추론 파이프라인 내에서 제한된 고대역폭 GPU 메모리는 빈번한 KV 캐시 제거를 강제하여 반복적인 재계산과 운영 효율성 저하를 초래합니다. 시스템 동시성이 증가함에 따라 이러한 비효율성은 증폭되어 인프라 비용을 증가시키고 성능 예측 가능성을 감소시킵니다.
이 회사는 공유 KV 캐시 인프라를 솔루션으로 홍보합니다. 사용자 및 세션 전반에 걸쳐 지속적인 컨텍스트를 보존함으로써 공유 캐싱은 중복 처리를 제거하고 토큰 처리량을 안정화합니다. NVIDIA STX는 이 모델에 대한 검증된 레퍼런스 아키텍처를 제공하며, WEKA는 스토리지 및 메모리 확장 계층을 제공합니다.
NeuralMesh 및 Augmented Memory Grid 아키텍처
NeuralMesh는 전체 NVIDIA STX 스택에 원활하게 통합되도록 구축된 WEKA의 분산 스토리지 플랫폼 역할을 합니다. AI 워크로드에 최적화된 고성능 데이터 서비스를 제공하며, Augmented Memory Grid는 GPU 메모리 외부에서 KV 캐시를 통합하는 전용 메모리 확장 계층 역할을 합니다.
이 설계를 통해 추론 환경은 GPU 리소스를 과부하하지 않고 긴 컨텍스트 세션을 유지할 수 있습니다. 캐시 상태를 유지하고 워크로드 전반에 걸쳐 재사용을 가능하게 함으로써 플랫폼은 배포가 확장됨에 따라 높은 활용도와 일관된 성능을 유지합니다.
WEKA는 GTC 2025에서 처음 공개되었으며 현재 일반에 제공되는 Augmented Memory Grid가 BlueField DPUs와 페어링된 NVIDIA Grace CPU 플랫폼에서 검증되었다고 언급합니다. 이 아키텍처는 추론 효율성에서 측정 가능한 이점을 제공하며, 여기에는 훨씬 빠른 첫 번째 토큰 도달 시간, GPU당 더 높은 토큰 처리량 및 동시성 증가 시 안정적인 성능이 포함됩니다. 데이터 경로를 BlueField-4로 오프로드하면 CPU 오버헤드도 줄이고 I/O 병목 현상을 완화합니다.
성능 및 효율성 향상
프로덕션과 유사한 환경에서 이 플랫폼은 응답성과 인프라 효율성을 향상시키도록 설계되었습니다. WEKA는 Augmented Memory Grid가 첫 번째 토큰 도달 시간을 4배에서 20배까지 줄이는 동시에 GPU당 토큰 출력을 최대 6.5배까지 늘릴 수 있다고 말합니다. 이러한 개선은 더 높은 KV 캐시 히트율과 더 적은 재계산 주기에서 비롯되어 시스템이 컨텍스트 크기와 사용자 수가 확장됨에 따라 성능을 유지할 수 있도록 합니다.
AI 인프라 제공업체인 Firmus는 NVIDIA 기반 인프라와 함께 NeuralMesh를 활용하는 초기 채택자로 강조됩니다. 이 회사는 추가 하드웨어 배포가 아닌 기존 GPU의 더 효율적인 사용으로 인한 이점을 통해 확장 시 토큰 처리량 향상과 지연 시간 감소를 보고합니다.
AI 인프라 설계에 대한 시사점
이 통합은 AI 시스템 설계의 변화를 강조하며, 메모리 및 스토리지 전략이 전반적인 성능과 비용 효율성을 점점 더 정의합니다. 에이전트 AI 워크로드가 확장되고 컨텍스트 창이 넓어짐에 따라 DRAM 전용 접근 방식은 재계산 비용 증가와 GPU 활용도 저하로 인해 지속 불가능해집니다.
WEKA는 지속적이고 공유된 KV 캐시를 AI 팩토리의 기본 기능으로 포지셔닝합니다. 이 모델을 채택하는 조직은 더 높은 GPU 활용도, 추론 작업당 에너지 소비 감소 및 더 예측 가능한 확장을 달성할 수 있습니다. 대조적으로, 로컬 GPU 메모리에만 의존하는 환경은 워크로드가 성장함에 따라 운영 비용 증가와 수익 감소에 직면할 가능성이 높습니다.
베이징 전흥 지통 과학 기술 유한 회사
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
“기술을 통해 지능형 세계를 구축하십시오” 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
“기술을 통해 지능형 세계를 구축하십시오” 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!



