logo
사건

WEKA는 AI 추론 메모리 병목을 해결하기 위해 NVIDIA STX와 NeuralMesh을 통합합니다.

인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
고객 검토
베이징 첸싱 지에통 테크 주식회사의 영업 사원은 매우 전문적이고 참을성 있습니다. 그들은 빨리 인용을 제공할 수 있습니다. 제품의 품질과 패키징은 또한 매우 좋습니다. 우리의 협력은 매우 매끄럽습니다.

—— 《Festfing DV》LLC

내가 긴급히 인텔 CPU와 토시바 SSD를 찾고 있었늘 때, 베이징 첸싱 지에통 기술 주식회사로부터의 샌디는 나에게 많은 도움을 주었고, 나에게 빨리 필요로 한 제품을 가져다 주었습니다. 나는 정말로 그녀를 압니다.

—— 고양이 엔

베이징 첸싱 지에통 기술 주식회사의 샌디는 내가 서버를 구입할 때 제시간에 나에게 구성 오류를 상기시킬 수 있는 매우 주의깊은 판매원을 있습니다. 엔지니어들은 또한 매우 전문적이고, 빠르게 테스팅 프로세스를 완료할 수 있습니다.

—— 스트렐킨 미하일 블라드미로비치

베이징 첸싱지에통과의 협업에 매우 만족합니다. 제품 품질이 훌륭하고, 배송도 항상 제 시간에 이루어집니다. 영업팀은 전문적이고, 인내심이 많으며, 모든 질문에 매우 친절하게 답변해 줍니다. 그들의 지원에 진심으로 감사드리며, 장기적인 파트너십을 기대합니다. 강력 추천합니다!

—— Ahmad Navid

품질: 제 공급업체와의 좋은 경험. 미크로틱 RB3011은 이미 사용되었지만 매우 좋은 상태로 모든 것이 완벽하게 작동합니다. 통신은 빠르고 원활했습니다.그리고 제 모든 걱정은 빠르게 해결되었습니다.매우 신뢰할 수 있는 공급자

—— 제란 콜레시오

제가 지금 온라인 채팅 해요

WEKA는 AI 추론 메모리 병목을 해결하기 위해 NVIDIA STX와 NeuralMesh을 통합합니다.

April 10, 2026
WEKA는 NVIDIA STX 레퍼런스 아키텍처와 NeuralMesh 플랫폼을 통합한다고 발표했으며, 이를 통해 Augmented Memory Grid를 차세대 AI 인프라의 핵심 구성 요소로 자리매김했습니다. 이 통합 솔루션은 대규모 추론 환경에서 성능, 총 소유 비용 및 확장 가능한 성장에 직접적인 영향을 미치는 메모리 제약이라는 가장 중요한 병목 현상을 해결합니다.

NeuralMesh를 통해 작동하는 WEKA의 Augmented Memory Grid는 키-값 캐시를 외부화하고 지속시켜 GPU 메모리를 확장합니다. NVIDIA STX와 함께 배포될 때 이 아키텍처는 에이전트 AI 워크로드에 대한 고처리량 컨텍스트 메모리 스토리지를 제공하여 세션, 도구 및 엔드투엔드 워크플로우 전반에 걸쳐 긴 컨텍스트 추론을 지원합니다. 회사에 따르면 NVIDIA Vera Rubin NVL72 시스템, BlueField-4 DPU 및 Spectrum-X 이더넷을 결합한 구성은 컨텍스트 메모리 토큰 처리량을 4배에서 10배까지 높일 수 있습니다. 이 플랫폼은 또한 전통적인 AI 스토리지 아키텍처의 성능을 두 배 이상 능가하는 초당 320GB 이상의 읽기 및 초당 150GB 이상의 쓰기 처리량을 제공할 것으로 예상됩니다.

최신 회사 사례 WEKA는 AI 추론 메모리 병목을 해결하기 위해 NVIDIA STX와 NeuralMesh을 통합합니다.  0

메모리 인프라가 추론 병목 현상이 되다


WEKA는 이러한 통합을 최신 AI 배포에서 증가하는 메모리 벽 문제에 집중합니다. 오늘날의 추론 파이프라인 내에서 제한된 고대역폭 GPU 메모리는 빈번한 KV 캐시 제거를 강제하여 반복적인 재계산과 운영 효율성 저하를 초래합니다. 시스템 동시성이 증가함에 따라 이러한 비효율성은 증폭되어 인프라 비용을 증가시키고 성능 예측 가능성을 감소시킵니다.

이 회사는 공유 KV 캐시 인프라를 솔루션으로 홍보합니다. 사용자 및 세션 전반에 걸쳐 지속적인 컨텍스트를 보존함으로써 공유 캐싱은 중복 처리를 제거하고 토큰 처리량을 안정화합니다. NVIDIA STX는 이 모델에 대한 검증된 레퍼런스 아키텍처를 제공하며, WEKA는 스토리지 및 메모리 확장 계층을 제공합니다.

NeuralMesh 및 Augmented Memory Grid 아키텍처


NeuralMesh는 전체 NVIDIA STX 스택에 원활하게 통합되도록 구축된 WEKA의 분산 스토리지 플랫폼 역할을 합니다. AI 워크로드에 최적화된 고성능 데이터 서비스를 제공하며, Augmented Memory Grid는 GPU 메모리 외부에서 KV 캐시를 통합하는 전용 메모리 확장 계층 역할을 합니다.

이 설계를 통해 추론 환경은 GPU 리소스를 과부하하지 않고 긴 컨텍스트 세션을 유지할 수 있습니다. 캐시 상태를 유지하고 워크로드 전반에 걸쳐 재사용을 가능하게 함으로써 플랫폼은 배포가 확장됨에 따라 높은 활용도와 일관된 성능을 유지합니다.

WEKA는 GTC 2025에서 처음 공개되었으며 현재 일반에 제공되는 Augmented Memory Grid가 BlueField DPUs와 페어링된 NVIDIA Grace CPU 플랫폼에서 검증되었다고 언급합니다. 이 아키텍처는 추론 효율성에서 측정 가능한 이점을 제공하며, 여기에는 훨씬 빠른 첫 번째 토큰 도달 시간, GPU당 더 높은 토큰 처리량 및 동시성 증가 시 안정적인 성능이 포함됩니다. 데이터 경로를 BlueField-4로 오프로드하면 CPU 오버헤드도 줄이고 I/O 병목 현상을 완화합니다.

성능 및 효율성 향상


프로덕션과 유사한 환경에서 이 플랫폼은 응답성과 인프라 효율성을 향상시키도록 설계되었습니다. WEKA는 Augmented Memory Grid가 첫 번째 토큰 도달 시간을 4배에서 20배까지 줄이는 동시에 GPU당 토큰 출력을 최대 6.5배까지 늘릴 수 있다고 말합니다. 이러한 개선은 더 높은 KV 캐시 히트율과 더 적은 재계산 주기에서 비롯되어 시스템이 컨텍스트 크기와 사용자 수가 확장됨에 따라 성능을 유지할 수 있도록 합니다.

AI 인프라 제공업체인 Firmus는 NVIDIA 기반 인프라와 함께 NeuralMesh를 활용하는 초기 채택자로 강조됩니다. 이 회사는 추가 하드웨어 배포가 아닌 기존 GPU의 더 효율적인 사용으로 인한 이점을 통해 확장 시 토큰 처리량 향상과 지연 시간 감소를 보고합니다.

AI 인프라 설계에 대한 시사점


이 통합은 AI 시스템 설계의 변화를 강조하며, 메모리 및 스토리지 전략이 전반적인 성능과 비용 효율성을 점점 더 정의합니다. 에이전트 AI 워크로드가 확장되고 컨텍스트 창이 넓어짐에 따라 DRAM 전용 접근 방식은 재계산 비용 증가와 GPU 활용도 저하로 인해 지속 불가능해집니다.

WEKA는 지속적이고 공유된 KV 캐시를 AI 팩토리의 기본 기능으로 포지셔닝합니다. 이 모델을 채택하는 조직은 더 높은 GPU 활용도, 추론 작업당 에너지 소비 감소 및 더 예측 가능한 확장을 달성할 수 있습니다. 대조적으로, 로컬 GPU 메모리에만 의존하는 환경은 워크로드가 성장함에 따라 운영 비용 증가와 수익 감소에 직면할 가능성이 높습니다.

베이징 전흥 지통 과학 기술 유한 회사
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
“기술을 통해 지능형 세계를 구축하십시오” 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!
연락처 세부 사항
Beijing Qianxing Jietong Technology Co., Ltd.

담당자: Ms. Sandy Yang

전화 번호: 13426366826

회사에 직접 문의 보내기 (0 / 3000)