logo
사건

NVIDIA DGX Spark 클러스터 검토: Dell, GIGABYTE 및 HP에 대한 분산 추론

인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
고객 검토
베이징 첸싱 지에통 테크 주식회사의 영업 사원은 매우 전문적이고 참을성 있습니다. 그들은 빨리 인용을 제공할 수 있습니다. 제품의 품질과 패키징은 또한 매우 좋습니다. 우리의 협력은 매우 매끄럽습니다.

—— 《Festfing DV》LLC

내가 긴급히 인텔 CPU와 토시바 SSD를 찾고 있었늘 때, 베이징 첸싱 지에통 기술 주식회사로부터의 샌디는 나에게 많은 도움을 주었고, 나에게 빨리 필요로 한 제품을 가져다 주었습니다. 나는 정말로 그녀를 압니다.

—— 고양이 엔

베이징 첸싱 지에통 기술 주식회사의 샌디는 내가 서버를 구입할 때 제시간에 나에게 구성 오류를 상기시킬 수 있는 매우 주의깊은 판매원을 있습니다. 엔지니어들은 또한 매우 전문적이고, 빠르게 테스팅 프로세스를 완료할 수 있습니다.

—— 스트렐킨 미하일 블라드미로비치

베이징 첸싱지에통과의 협업에 매우 만족합니다. 제품 품질이 훌륭하고, 배송도 항상 제 시간에 이루어집니다. 영업팀은 전문적이고, 인내심이 많으며, 모든 질문에 매우 친절하게 답변해 줍니다. 그들의 지원에 진심으로 감사드리며, 장기적인 파트너십을 기대합니다. 강력 추천합니다!

—— Ahmad Navid

품질: 제 공급업체와의 좋은 경험. 미크로틱 RB3011은 이미 사용되었지만 매우 좋은 상태로 모든 것이 완벽하게 작동합니다. 통신은 빠르고 원활했습니다.그리고 제 모든 걱정은 빠르게 해결되었습니다.매우 신뢰할 수 있는 공급자

—— 제란 콜레시오

제가 지금 온라인 채팅 해요

NVIDIA DGX Spark 클러스터 검토: Dell, GIGABYTE 및 HP에 대한 분산 추론

May 15, 2026
NVIDIA DGX Spark에는 두 가지 특징이 있습니다. 4,000달러짜리 데스크톱 단위로 128GB의 통합 메모리와 200Gb의 데이터센터 수준의 네트워크가 내장되어 있습니다.고속 천은 일반 작업소와 구별이 리뷰는 Dell, GIGABYTE,다양한 모델과 작업량에 걸쳐 두 노드 200GbE 클러스터에서 HP Spark 변종또한 NVIDIA의 기본 텐서 평행성 (TP) 을 능가하는 대체 분할 방법인 파이프라인 평행성 (PP) 을 분석합니다.

최신 회사 사례 NVIDIA DGX Spark 클러스터 검토: Dell, GIGABYTE 및 HP에 대한 분산 추론  0

200Gb 네트워크 패브릭


각 스파크에는 통합된 ConnectX-7 SmartNIC와 결합된 두 개의 QSFP56 케이지가 장착되어 있습니다. PCIe Gen5 x4 대역폭으로 제한되어 있으며 사용 가능한 네트워크 속도는 200Gb입니다.전체 대역폭에 필요한 하나의 포트; 두 번째 포트는 토폴로지 유연성을 제공합니다. 세 가지 일반적인 구성이 제공됩니다: 직접 스파크-스파크 200Gb 링크, 듀얼 100Gb 포트를 통해 스위치 무료 링 토폴로지,NVMe-oF 고속 스토리지 액세스를 갖춘 하이브리드 클러스터링NVIDIA는 단일 단위 데스크톱, 검증된 2 노드 클러스터, 그리고 새로 출시된 4 노드 세트업을 판매합니다.이중 스파크 구성은 생산 스타일 추론에 가장 실용적이며이 테스트의 초점은.

최신 회사 사례 NVIDIA DGX Spark 클러스터 검토: Dell, GIGABYTE 및 HP에 대한 분산 추론  1

스파크 클러스터링의 근거


주요 이점은 모델 용량을 확장하는 것입니다. 연결된 두 개의 스파크는 단일 단위 메모리 한계를 초과하는 120B 매개 변수 모델을 실행할 수 있습니다. 더 중요한 것은,이 플랫폼은 저렴한 교육 도구로 사용되고 있습니다.. NVIDIA는 AI 워크플로우를 배우기 위해 초보자를 위해 Spark를 설계하고 있으며, 모델 배포, 정밀 조정 및 PyTorch/JAX 개발을 다루는 공식 가이드를 제공합니다.듀얼 노드 클러스터는 값비싼 데이터센터 하드웨어를 사용하지 않고 멀티 노드 병렬화 및 네트워크 병목 분석을 더 가르칩니다.특히, 스파크는 생산 추론에 최적화되어 있지 않습니다. 메모리 대역폭과 노드 간 지연으로 제한되므로 200GbE 링크는 내부 PCIe 연결보다 느립니다.더 큰 클러스터는 성능이 심각하게 저하됩니다., 낮은 토큰 처리량으로, 상업적 서비스보다는 교육용으로 제한합니다.

성능 테스트: PP 대 TP


평행성 전략 선택


NVIDIA는 기본으로 TP를 사용하며, 각 트랜스포머 계층을 두 개의 GPU에 분할하여 자주 모든 데이터를 교환합니다.노드 사이에 한번만 활성화 전송. 200GbE 링크에서 PP는 크로스 노드 통신을 최소화합니다. 높은 팩 크기의 큰 모델에서 PP는 TP를 크게 능가합니다. TP는 단일 요청 저 지연 채팅 시나리오에서만 우수합니다.
GPT-OSS-120B에 대한 테스트는이 격차를 확인합니다. 팩 크기 128에서 PP는 균형 잡힌 작업 부하에서 554.69 tok/s (2.20 × TP보다 빠르다) 를 달성하고, 사전 충전 무거운 작업에서 310.63 tok/s 대 164.99 tok/s입니다.TP 선수는 1배 크기에만라마 3.1-8B와 같은 작은 모델의 경우, PP는 높은 동시에서 TP를 능가하는 가벼운 레이어 계산으로 인해 TP는 대부분의 대량 크기를 지배합니다.

다모델 벤치마크 결과 (PP=2)


GPT-OSS 시리즈


GPT-OSS-120B의 경우, HP는 균형 (504.88 tok/s) 및 사전 충전 중량 (441.63 tok/s) 워크로드에서 최고 처리량을 달성했으며, GIGABYTE는 디코드 중량 테스트 (494.37 tok/s) 를 주도했다.델 선두 균형 (976.77 tok/s) 및 사전 충전 중량 (852.39 tok/s) 시나리오, 반면 GIGABYTE는 디코드 작업을 주도했다 (945.55 tok/s).

라마 3.1 8B 변종


BF16 정밀도에서 델은 균형 잡힌 (689.53 tok/s) 및 디코드 무거운 (581.43 tok/s) 워크로드를 이끌었고, GIGABYTE는 사전 충전 무거운 테스트 (539.27 tok/s) 를 수상했다.기가바이트 LED 균형 (1458.86 tok/s) 및 사전 충전 중량 (954.23 tok/s) 작업. FP8에서 Dell은 균형 잡힌 (1105.42 tok/s) 및 해독 중량 (862.33 tok/s) 시나리오에서 좁은 리드를 유지했다.

미스트랄 & 큐엔 모델


미스트랄 소형 3.1 24B는 최소한의 격차를 보였다: GIGABYTE는 균형 잡힌 워크로드에서 255.09 tok/s의 최고치를 기록했다. Qwen3 코더 30B (A3B 베이스) 에서 GIGABYTE는 사전 충전 무거운 작업 (1862.40 tok/s) 을 주도했다.델은 디코드 시나리오에서 우수한FB8 양자화 하에, GIGABYTE는 전 충전 중량 처리량 (3088.62 tok/s) 을 돌파했고, 델은 해독 작업을 주도했다 (705.77 tok/s).

듀얼 스파크 시스템 최고 출력 요약


모델
시나리오 (BS 64)
델 최고출력
기가바이트 최고 출력
HP 최고 출력
GPT-OSS-120B
동일 ISL/OSL
4630.97 tok/s
497.26 tok/s
5040.88 tok/s
GPT-OSS-120B
전 충전 중량
419.56 tok/s
417.34 tok/s
4410.63 tok/s
GPT-OSS-120B
디코드 중량
451.18 tok/s
494.37 tok/s
474.85 tok/s
GPT-OSS-20B
동일 ISL/OSL
9760.77 tok/s
952.31 tok/s
9150.72 tok/s
GPT-OSS-20B
전 충전 중량
8520.39 tok/s
802.37 tok/s
7570.05 tok/s
GPT-OSS-20B
디코드 중량
938.65 tok/s
945.55 tok/s
865.78 tok/s
라마-3.1-8B-인스트럭터
동일 ISL/OSL
689.53 tok/s
687.48 tok/s
6180.87 tok/s
라마-3.1-8B-인스트럭터
전 충전 중량
515.45 tok/s
539.27 tok/s
4630.39 tok/s
라마-3.1-8B-인스트럭터
디코드 중량
581.43 tok/s
5760.91 tok/s
5310.07 tok/s
라마-3.1-8B-FP4
동일 ISL/OSL
14270.39 tok/s
14580.86 tok/s
1413.51 tok/s
라마-3.1-8B-FP4
전 충전 중량
884.22 tok/s
954.23 tok/s
8430.57 tok/s
라마-3.1-8B-FP4
디코드 중량
1008.98 tok/s
1007.23 tok/s
9430.73 tok/s
라마-3.1-8B-FP8
동일 ISL/OSL
1105.42 tok/s
1089.85 tok/s
1076.68 tok/s
라마-3.1-8B-FP8
전 충전 중량
759.50 tok/s
827.40 tok/s
725.51 tok/s
라마-3.1-8B-FP8
디코드 중량
862.33 tok/s
855.81 tok/s
800.78 tok/s
미스트랄-스몰-3.1-24B
동일 ISL/OSL
2490.77 tok/s
2550.09 tok/s
2390.09 tok/s
미스트랄-스몰-3.1-24B
전 충전 중량
2160.01 tok/s
214.38 tok/s
1970.92 tok/s
미스트랄-스몰-3.1-24B
디코드 중량
238.44 tok/s
2370.97 tok/s
221.41 tok/s


결론


델, GIGABYTE, HP Spark 단위는 소규모 팩별 리드와 함께 무시할 수 없는 성능 격차를 제공합니다. 구매 결정은 차체 설계, 열 성능, 보증,비중이 작은 기준 차이에 대한 판매 후 지원평행성 전략은 OEM 변형보다 훨씬 더 큰 영향을 미칩니다: PP는 배트 추론에 TP를 능가합니다. TP는 단일 스트림 저 지연 상호 작용에 적합합니다.NVIDIA의 TP 추천은 생산 인프라보다는 상호 작용 학습 장치로 스파크의 위치와 일치합니다.이중 노드 스파크 클러스터는 분산 AI를 위한 저렴한 교육 플랫폼으로 기능합니다. 미래 테스트는 더 큰 클러스터와 끝에서 끝까지의 작은 모델 교육을 포함합니다.연구실 800Gb 스위치 배포를 기다리고 있습니다..

베이징 첸징 지에텐 기술 회사, Ltd
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요
연락처 세부 사항
Beijing Qianxing Jietong Technology Co., Ltd.

담당자: Ms. Sandy Yang

전화 번호: 13426366826

회사에 직접 문의 보내기 (0 / 3000)