미니오는 대규모 AI 추론 파이프라인 내에서 중요한 병목을 해결하기 위해 만들어진 전용 컨텍스트 메모리 저장소인 MemKV를 출시했습니다.AIStor와 함께 MinIO의 두 번째 대표 솔루션으로, MemKV는 회사의 데이터 인프라를 메모리 계층으로 확장합니다. 분산 GPU 클러스터에서 실행되는 에이전틱 AI 워크로드에 대한 지속적인 공유 컨텍스트 데이터를 제공하도록 설계되었습니다.
미니오 AIStor
인공지능 시스템은 일회성 응답에서 다회적 추론과 자동화된 작업 수행으로 발전함에 따라 추론 주기에 걸쳐 지속적인 맥락을 유지하는 것이 점점 더 필수적입니다.기존 아키텍처 아래, 컨텍스트 데이터는 HBM 및 DRAM을 포함한 GPU와 인접한 메모리 계층의 제한된 용량으로 인해 종종 폐기됩니다. 이것은 GPU가 기존 컨텍스트를 반복적으로 재 계산하도록 강요하여 대기 시간을 증가시킵니다.계산 사용량 및 전력 사용량미니오는 이 과잉 작업 부하를 "재 계산 세금"으로 정의합니다. 이는 초대 규모 클라우드 환경에서 기하급수적으로 악화되는 비효율성입니다.
MemKV는 공유된 영구적인 메모리 계층을 통해 이 고통의 지점을 완화하도록 설계되었습니다. 마이크로초 수준의 접속 지연시간으로 페타바이트 규모의 스토리지를 사용할 수 있습니다.추론 워크플로우 전체에 컨텍스트 데이터를 유지함으로써, 플랫폼은 불필요한 컴퓨팅을 줄이고 전체 인프라 효율성을 높입니다.미니오의 내부 벤치마크 데이터는 생산급 동시화 하에 톡인 첫 번째 시간 지연을 개선한 것을 확인합니다.128개의 GPU와 128K 토큰 컨텍스트 윈도우가 탑재된 전형적인 배포에서는 GPU 활용도가 약 50%에서 90% 이상으로 증가하여 연간 컴퓨팅 비용의 상당한 감소로 이어졌습니다.
미니오 즈의 임원들은 재공산 오버헤드가 소규모 배포에서 눈에 띄지 않지만 기업 규모의 근본적인 구조적 결함으로 변한다고 밝혔다. GPU 클러스터가 확장됨에 따라,반복적인 컨텍스트 재생은 더 높은 전력 소비와 인프라 비용을 발생인공지능의 지속가능한 운영을 위해 전문적인 메모리 시스템을 필수적인 것으로 만듭니다.
기억량 상쇄 문제 해결
기존의 인공지능 인프라는 개발자들이 접근 속도와 저장 용량 사이에서 타협하도록 강요합니다.HBM 및 DRAM과 같은 고성능 메모리 계층은 마이크로초 지연 시간을 제공하지만 좁은 용량 제한과 높은 비용을 제공합니다.이에 반해, 전통적인 저장 시스템은 엄청난 확장성을 제공하지만 밀리 초 수준의 지연으로 고통 받고 있으며, 실시간 추론과 긴 맥락 추론 작업과 호환되지 않습니다.
미크론 HBM4
MemKV는 매우 낮은 지연시간과 큰 스토리지 확장성을 균형 잡는 중간 공유 메모리 계층을 도입함으로써 이 산업 격차를 극복합니다.NVIDIA BlueField-4 STX와 내성 호환되며 NIXL 도구와 함께 NVIDIA Dynamo와 통합되었습니다., 이 솔루션은 전체 GPU 클러스터가 추론-진정한 전송 속도에서 통합된 컨텍스트 데이터 풀에 액세스 할 수 있습니다.이 디자인은 격리된 메모리와 저장 계층 사이의 빈번한 컨텍스트 데이터 마이그레이션을 제거합니다., 대기 시간을 낮추고 시스템 처리량을 높입니다.
NVIDIA 블루필드-4
추론 워크로드에 최적화된 아키텍처
추론 데이터 파이프 라인을 위해 독점적으로 제작된 MemKV는 MinIO의 GPU 메모리 계층 프레임워크의 G3.5 계층에 적합합니다. NVMe 저장 인프라에 구축되어 있습니다.마이크로초 접속 지연을 유지하면서 페타바이트 수준의 용량을 달성합니다., GPU 컴퓨팅 자원으로부터 메모리 확장성을 성공적으로 분리합니다.
이 시스템은 번거로운 전통적인 스토리지 추상화를 포기하고, 끝에서 끝까지 RDMA 전송을 통해 NVMe 드라이브에서 AI 데이터 파이프라인으로 데이터를 직접 전송합니다.이것은 HTTP 프로토콜에 의한 성능 오버헤드를 절감합니다., 파일 시스템 변환 및 중간 저장 서버는 객체 및 파일 기반 저장 아키텍처의 일반적인 병목입니다.
출처: 구글
주요 아키텍처 최적화는 NVIDIA BlueField-4 STX에서 내티브 ARM64 바이너리 실행을 포함하며, 외부 x86 저장 노드에 대한 의존도를 줄이기 위해 스토리지 계층에 직접 내장되어 있습니다.GPU 메모리와 NVMe 저장장치 사이의 모든 데이터 전송은 RDMA 전송을 채택합니다.또한 MemKV는 2 MB에서 16 MB까지의 확장 블록 크기를 사용합니다.기존 4 KB 저장 블록 대신 GPU 처리량 특성에 최적화 된그것은 NVIDIA 스펙트럼-X 이더넷과 PCIe Gen6와 같은 최첨단 고속 상호 연결 섬유를 지원하며 클러스터를 통해 거의 유선 속도 데이터 전송을 촉진합니다.
사용 가능성
미니오 MemKV는 이제 기업용으로 상업적으로 사용할 수 있습니다.
베이징 첸징 지에텐 기술 회사, Ltd
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요



