logo
뉴스

회사 소식 라이트비트 및 스케일플럭스 데모 100x ~ 280x KV 캐시 가속

인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
고객 검토
베이징 첸싱 지에통 테크 주식회사의 영업 사원은 매우 전문적이고 참을성 있습니다. 그들은 빨리 인용을 제공할 수 있습니다. 제품의 품질과 패키징은 또한 매우 좋습니다. 우리의 협력은 매우 매끄럽습니다.

—— 《Festfing DV》LLC

내가 긴급히 인텔 CPU와 토시바 SSD를 찾고 있었늘 때, 베이징 첸싱 지에통 기술 주식회사로부터의 샌디는 나에게 많은 도움을 주었고, 나에게 빨리 필요로 한 제품을 가져다 주었습니다. 나는 정말로 그녀를 압니다.

—— 고양이 엔

베이징 첸싱 지에통 기술 주식회사의 샌디는 내가 서버를 구입할 때 제시간에 나에게 구성 오류를 상기시킬 수 있는 매우 주의깊은 판매원을 있습니다. 엔지니어들은 또한 매우 전문적이고, 빠르게 테스팅 프로세스를 완료할 수 있습니다.

—— 스트렐킨 미하일 블라드미로비치

베이징 첸싱지에통과의 협업에 매우 만족합니다. 제품 품질이 훌륭하고, 배송도 항상 제 시간에 이루어집니다. 영업팀은 전문적이고, 인내심이 많으며, 모든 질문에 매우 친절하게 답변해 줍니다. 그들의 지원에 진심으로 감사드리며, 장기적인 파트너십을 기대합니다. 강력 추천합니다!

—— Ahmad Navid

품질: 제 공급업체와의 좋은 경험. 미크로틱 RB3011은 이미 사용되었지만 매우 좋은 상태로 모든 것이 완벽하게 작동합니다. 통신은 빠르고 원활했습니다.그리고 제 모든 걱정은 빠르게 해결되었습니다.매우 신뢰할 수 있는 공급자

—— 제란 콜레시오

제가 지금 온라인 채팅 해요
회사 뉴스
라이트비트 및 스케일플럭스 데모 100x ~ 280x KV 캐시 가속
Lightbits Labs와 ScaleFlux는 LightInferra 캐시 소프트웨어를 활용하여 ScaleFlux 연산 스토리지 SSD에서 데이터를 읽음으로써 KV 캐시 워크로드에 대해 100배에서 280배의 성능 향상을 달성했습니다.

두 회사는 FarmGPU 데이터 센터 환경에 배포된 GPU에 KV 캐시 데이터를 공급했으며, Nvidia의 다가오는 GTC 컨퍼런스에서 이 혁신을 선보일 예정입니다. KV 캐시는 GPU의 고대역폭 메모리(HBM)에 토큰 벡터를 저장합니다. HBM 용량이 소진되면 KV 캐시 데이터 블록을 다시 계산해야 하는데, 이 과정은 시간이 많이 소요되고 AI 학습 및 추론 속도를 저하시킵니다. AI 워크로드가 확장되어 벡터 생성을 위한 토큰 수가 급증함에 따라 이러한 속도 저하는 특히 두드러집니다.

KV 캐시 소프트웨어는 캐시 계층을 논리적으로 확장합니다. 먼저 GPU 서버의 x86 CPU 및 DRAM으로, 다음으로 동일한 x86 시스템의 로컬 NVMe 드라이브로, 더 나아가 외부 NVMe SSD로 확장합니다. 이러한 계층적 확장은 토큰 벡터를 다시 계산할 필요를 없앱니다. NVMe SSD는 HBM 또는 DRAM보다 액세스 지연 시간이 길지만, 미리 계산된 토큰 벡터를 검색하는 것은 수만 개의 벡터를 처음부터 다시 계산하는 것보다 훨씬 빠릅니다. Lightbits와 ScaleFlux는 솔루션이 SSD에서 KV 캐시 데이터 검색을 획기적으로 가속화한다고 주장합니다.

Lightbits Labs의 AI 아키텍처 이사인 Arthur Rasmusson은 다음과 같이 말했습니다. "우리는 추론 메모리를 반응형 캐시에서 지능형 스트리밍 데이터 계층으로 변환하고 있습니다."

어떻게?


"필요한 데이터만 미리 가져와서 필요하기 전에 고속 RDMA를 통해 GPU에 전달함으로써, 장기 컨텍스트 성능을 전통적으로 제한하는 지연을 제거합니다. 그 결과 Time-to-First-Token(TTFT)이 낮아지고, 실제 부하에서 처리량이 안정화되며, GPU 활용도가 크게 향상됩니다."

ScaleFlux의 솔루션 아키텍처 및 기술 파트너십 수석 이사인 Keith McKay는 다음과 같이 말했습니다. "GTC에서 선보이는 것은 컨텍스트 창이 커짐에 따라 추론 시스템이 응답성을 유지하도록 돕는 더 스마트한 데이터 배치 및 영구적인 주의 상태 관리가 어떻게 도움이 될 수 있는지에 대한 초기 모습입니다. 이는 실제 운영자와 함께 만들어가고 싶은 협업입니다."

Lightbits와 ScaleFlux 모두 클라우드 및 인프라 운영자가 소프트웨어와 SSD를 채택하여 비용이 많이 드는 GPU 유휴 시간을 없애도록 장려하는 것을 목표로 합니다.

먼저 ScaleFlux의 기여를 살펴보고, 더 정교한 Lightbits 소프트웨어 계층으로 넘어가겠습니다.

ScaleFlux는 하드웨어 기반 쓰기 축소 기술(WRT)이 장착된 NVMe SSD 및 연산 스토리지 드라이브(CSD)를 제공합니다. 하드웨어 가속 압축 및 SoC 기반 메타데이터 관리를 통해 구동되는 이 드라이브는 물리적 스토리지보다 최대 4배 더 많은 논리적 용량을 제공하며, 호스트 시스템에는 완전히 투명하게 작동합니다. 이 회사는 Open Flash Platform(OFP) 컨소시엄의 회원으로, 밀집되고 지연 시간이 짧으며 전력 효율적인 시스템으로 AI 데이터 인프라를 재정의하기 위해 노력하고 있으며, 기존 파일 기반 AI 스토리지보다 10배의 밀도와 1/10의 전력 소비를 제공합니다.

이러한 스토리지 드라이브를 기반으로 Lightbits는 GPU가 필요하기 전에 KV 캐시 데이터의 지능형 사전 로딩을 추가하여 불충분한 KV 용량 또는 비용이 많이 드는 토큰 벡터 재계산으로 인한 지연을 방지합니다. LightInferra 소프트웨어는 KV 캐시 최적화 캐싱 알고리즘을 사용하여 실제 수요보다 앞서 필요한 데이터를 RDMA 속도로 GPU 메모리로 가져옵니다.

다시, 어떻게?


이 소프트웨어는 GPU 서버에 내장된 x86 호스트에서 실행되며 KV 캐시 데이터 블록의 액세스 패턴을 추적합니다. 이 텔레메트리를 사용하여 다음에 필요할 가능성이 가장 높은 KV 블록을 식별하는 Sub-Linear Sparse Attention Prefetch(SLSAP) 엔진을 작동시킵니다.

이 엔진은 지역 민감 해싱(LSH)과 통계적 재사용 모델링을 결합하여 주의 계산에서 과거 액세스 지역성을 분석하여 KV 블록의 점수를 매기고 우선 순위를 지정한 다음, GPU에서 요청할 확률이 가장 높은 블록을 선택합니다.

이 선택 프로세스는 GPU 데이터 액세스의 고유한 희소성을 활용합니다. 대부분의 토큰은 이전 토큰의 작은 부분 집합과만 의미 있게 관련됩니다. 이러한 높은 확률 블록을 격리함으로써 솔루션은 GPU로 다시 스트리밍해야 하는 토큰 벡터의 양을 획기적으로 줄입니다.

두 번째 알고리즘은 재사용 패턴에 중점을 둡니다. 최근 토큰, 의미론적으로 유사한 토큰, RAG 또는 다중 턴 채팅 시나리오에서 일반적인 구조적 패턴은 자주 재사용되며 그에 따라 우선 순위가 지정됩니다.

LightInferra는 이러한 토큰 블록을 먼저 x86 서버의 DRAM에서, 필요한 경우 외부 ScaleFlux SSD에서 검색한 다음 RDMA 링크를 통해 GPU의 HBM으로 사전 로드합니다.

Lightbits는 대규모 언어 모델 워크로드를 사용하여 캐시된 콘텐츠를 처음부터 다시 계산하는 것과 비교하여 이 접근 방식을 벤치마킹했으며, Time-to-First-Token(TTFT)의 개선 사항을 측정했습니다. 보고된 100배에서 280배의 가속 수치는 이러한 테스트 결과에서 직접 파생됩니다.

에 대한 최신 회사 뉴스 라이트비트 및 스케일플럭스 데모 100x ~ 280x KV 캐시 가속  0

물론, Lightbits-ScaleFlux KV 캐시 가속

체계와 DDN, Hammerspace, VAST Data, WEKA 등의 KV 캐시 가속기와의 벤치마크 결과를 보고 싶지만,

이용할 수 없습니다.


LightInferra-ScaleFlux가 모델 크기가 증가함에 따라 캐시 재생성 TTFT를 점진적으로 개선하는 방법을 보여주는 차트가 있습니다. 예:

모든 관련 벤치마크 데이터는 컴퓨터 과학 전문가를 대상으로 하는 로그 스케일 차트로 표시되지만, 일반적인 언어는 실제 영향을 훨씬 쉽게 파악할 수 있도록 합니다. "결과는 컨텍스트가 10만 토큰에서 100만 토큰 이상으로 확장됨에 따라 지속적인 Time-to-First-Token(TTFT) 성능입니다."


에 대한 최신 회사 뉴스 라이트비트 및 스케일플럭스 데모 100x ~ 280x KV 캐시 가속  1


FarmGPU의 Jonmichael Hands가 말했듯이, 40만 토큰 대화가 재개되고 시스템이 전체 KV 캐시를 처음부터 다시 생성해야 할 때, 이는 2분 동안 GPU가 전혀 토큰을 생성하지 못하는 것을 의미합니다. LightInferra는 경제 모델을 완전히 바꿉니다. 동일한 워크로드가 0.5초 미만으로 첫 번째 토큰을 생성하여 실행 불가능한 제품 등급을 수익성 있는 등급으로 전환합니다.
Lightbits와 ScaleFlux는 수백 또는 수천 개의 동시 AI 모델 워크로드를 실행하는 대규모 GPU 파드가 있는 차세대 네오클라우드 GPU 팜을 위해 이 공동 솔루션을 특별히 설계했습니다. 이러한 워크로드의 거의 모든 것이 GPU의 고대역폭 메모리(HBM)의 KV 캐시 용량 한계에 도달할 것입니다.

전통적인 설정에서는 팀이 두 가지 비용이 많이 드는 옵션에 직면합니다. 일반 외부 스토리지에서 토큰 벡터를 느리게 가져오거나, 벡터를 처음부터 다시 계산하는 훨씬 더 시간이 많이 걸리는 프로세스입니다. 이 두 가지 모두 GPU가 몇 시간 동안 유휴 상태로 남게 됩니다. LightInferra와 ScaleFlux의 조합은 이 치명적인 업계 고충을 완전히 제거합니다.

FarmGPU의 CEO인 Jonmichael Hands는 다음과 같이 덧붙였습니다. "Lightbits의 빠른 네트워크 스토리지 덕분에 장기 컨텍스트 추론에 대한 새로운 사용 사례가 많이 열렸습니다. 당사의 관리형 서비스를 Lightbits의 고성능 스토리지와 ScaleFlux NVMe 드라이브에서 실행되는 것을 결합하면 첫 번째 토큰까지의 시간을 단축하고 GPU 활용도를 높여 추론 워크로드의 총 소유 비용(TCO)을 크게 절감할 수 있습니다."

베이징 첸싱지에통 기술 유한회사

Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트:
www.qianxingdata.com/www.storagesserver.com비즈니스 초점:

ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
"기술을 사용하여 지능형 세계를 구축하십시오" 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!
선술집 시간 : 2026-03-18 11:34:46 >> 뉴스 명부
연락처 세부 사항
Beijing Qianxing Jietong Technology Co., Ltd.

담당자: Ms. Sandy Yang

전화 번호: 13426366826

회사에 직접 문의 보내기 (0 / 3000)