NVIDIA DGX Spark에는 두 가지 특징이 있습니다. 4,000달러짜리 데스크톱 단위로 128GB의 통합 메모리와 200Gb의 데이터센터 수준의 네트워크가 내장되어 있습니다.고속 천은 일반 작업소와 구별이 리뷰는 Dell, GIGABYTE,다양한 모델과 작업량에 걸쳐 두 노드 200GbE 클러스터에서 HP Spark 변종또한 NVIDIA의 기본 텐서 평행성 (TP) 을 능가하는 대체 분할 방법인 파이프라인 평행성 (PP) 을 분석합니다.
200Gb 네트워크 패브릭
각 스파크에는 통합된 ConnectX-7 SmartNIC와 결합된 두 개의 QSFP56 케이지가 장착되어 있습니다. PCIe Gen5 x4 대역폭으로 제한되어 있으며 사용 가능한 네트워크 속도는 200Gb입니다.전체 대역폭에 필요한 하나의 포트; 두 번째 포트는 토폴로지 유연성을 제공합니다. 세 가지 일반적인 구성이 제공됩니다: 직접 스파크-스파크 200Gb 링크, 듀얼 100Gb 포트를 통해 스위치 무료 링 토폴로지,NVMe-oF 고속 스토리지 액세스를 갖춘 하이브리드 클러스터링NVIDIA는 단일 단위 데스크톱, 검증된 2 노드 클러스터, 그리고 새로 출시된 4 노드 세트업을 판매합니다.이중 스파크 구성은 생산 스타일 추론에 가장 실용적이며이 테스트의 초점은.
스파크 클러스터링의 근거
주요 이점은 모델 용량을 확장하는 것입니다. 연결된 두 개의 스파크는 단일 단위 메모리 한계를 초과하는 120B 매개 변수 모델을 실행할 수 있습니다. 더 중요한 것은,이 플랫폼은 저렴한 교육 도구로 사용되고 있습니다.. NVIDIA는 AI 워크플로우를 배우기 위해 초보자를 위해 Spark를 설계하고 있으며, 모델 배포, 정밀 조정 및 PyTorch/JAX 개발을 다루는 공식 가이드를 제공합니다.듀얼 노드 클러스터는 값비싼 데이터센터 하드웨어를 사용하지 않고 멀티 노드 병렬화 및 네트워크 병목 분석을 더 가르칩니다.특히, 스파크는 생산 추론에 최적화되어 있지 않습니다. 메모리 대역폭과 노드 간 지연으로 제한되므로 200GbE 링크는 내부 PCIe 연결보다 느립니다.더 큰 클러스터는 성능이 심각하게 저하됩니다., 낮은 토큰 처리량으로, 상업적 서비스보다는 교육용으로 제한합니다.
성능 테스트: PP 대 TP
평행성 전략 선택
NVIDIA는 기본으로 TP를 사용하며, 각 트랜스포머 계층을 두 개의 GPU에 분할하여 자주 모든 데이터를 교환합니다.노드 사이에 한번만 활성화 전송. 200GbE 링크에서 PP는 크로스 노드 통신을 최소화합니다. 높은 팩 크기의 큰 모델에서 PP는 TP를 크게 능가합니다. TP는 단일 요청 저 지연 채팅 시나리오에서만 우수합니다.
GPT-OSS-120B에 대한 테스트는이 격차를 확인합니다. 팩 크기 128에서 PP는 균형 잡힌 작업 부하에서 554.69 tok/s (2.20 × TP보다 빠르다) 를 달성하고, 사전 충전 무거운 작업에서 310.63 tok/s 대 164.99 tok/s입니다.TP 선수는 1배 크기에만라마 3.1-8B와 같은 작은 모델의 경우, PP는 높은 동시에서 TP를 능가하는 가벼운 레이어 계산으로 인해 TP는 대부분의 대량 크기를 지배합니다.
다모델 벤치마크 결과 (PP=2)
GPT-OSS 시리즈
GPT-OSS-120B의 경우, HP는 균형 (504.88 tok/s) 및 사전 충전 중량 (441.63 tok/s) 워크로드에서 최고 처리량을 달성했으며, GIGABYTE는 디코드 중량 테스트 (494.37 tok/s) 를 주도했다.델 선두 균형 (976.77 tok/s) 및 사전 충전 중량 (852.39 tok/s) 시나리오, 반면 GIGABYTE는 디코드 작업을 주도했다 (945.55 tok/s).
라마 3.1 8B 변종
BF16 정밀도에서 델은 균형 잡힌 (689.53 tok/s) 및 디코드 무거운 (581.43 tok/s) 워크로드를 이끌었고, GIGABYTE는 사전 충전 무거운 테스트 (539.27 tok/s) 를 수상했다.기가바이트 LED 균형 (1458.86 tok/s) 및 사전 충전 중량 (954.23 tok/s) 작업. FP8에서 Dell은 균형 잡힌 (1105.42 tok/s) 및 해독 중량 (862.33 tok/s) 시나리오에서 좁은 리드를 유지했다.
미스트랄 & 큐엔 모델
미스트랄 소형 3.1 24B는 최소한의 격차를 보였다: GIGABYTE는 균형 잡힌 워크로드에서 255.09 tok/s의 최고치를 기록했다. Qwen3 코더 30B (A3B 베이스) 에서 GIGABYTE는 사전 충전 무거운 작업 (1862.40 tok/s) 을 주도했다.델은 디코드 시나리오에서 우수한FB8 양자화 하에, GIGABYTE는 전 충전 중량 처리량 (3088.62 tok/s) 을 돌파했고, 델은 해독 작업을 주도했다 (705.77 tok/s).
듀얼 스파크 시스템 최고 출력 요약
|
모델
|
시나리오 (BS 64)
|
델 최고출력
|
기가바이트 최고 출력
|
HP 최고 출력
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
동일 ISL/OSL
|
4630.97 tok/s
|
497.26 tok/s
|
5040.88 tok/s
|
|
GPT-OSS-120B
|
전 충전 중량
|
419.56 tok/s
|
417.34 tok/s
|
4410.63 tok/s
|
|
GPT-OSS-120B
|
디코드 중량
|
451.18 tok/s
|
494.37 tok/s
|
474.85 tok/s
|
|
GPT-OSS-20B
|
동일 ISL/OSL
|
9760.77 tok/s
|
952.31 tok/s
|
9150.72 tok/s
|
|
GPT-OSS-20B
|
전 충전 중량
|
8520.39 tok/s
|
802.37 tok/s
|
7570.05 tok/s
|
|
GPT-OSS-20B
|
디코드 중량
|
938.65 tok/s
|
945.55 tok/s
|
865.78 tok/s
|
|
라마-3.1-8B-인스트럭터
|
동일 ISL/OSL
|
689.53 tok/s
|
687.48 tok/s
|
6180.87 tok/s
|
|
라마-3.1-8B-인스트럭터
|
전 충전 중량
|
515.45 tok/s
|
539.27 tok/s
|
4630.39 tok/s
|
|
라마-3.1-8B-인스트럭터
|
디코드 중량
|
581.43 tok/s
|
5760.91 tok/s
|
5310.07 tok/s
|
|
라마-3.1-8B-FP4
|
동일 ISL/OSL
|
14270.39 tok/s
|
14580.86 tok/s
|
1413.51 tok/s
|
|
라마-3.1-8B-FP4
|
전 충전 중량
|
884.22 tok/s
|
954.23 tok/s
|
8430.57 tok/s
|
|
라마-3.1-8B-FP4
|
디코드 중량
|
1008.98 tok/s
|
1007.23 tok/s
|
9430.73 tok/s
|
|
라마-3.1-8B-FP8
|
동일 ISL/OSL
|
1105.42 tok/s
|
1089.85 tok/s
|
1076.68 tok/s
|
|
라마-3.1-8B-FP8
|
전 충전 중량
|
759.50 tok/s
|
827.40 tok/s
|
725.51 tok/s
|
|
라마-3.1-8B-FP8
|
디코드 중량
|
862.33 tok/s
|
855.81 tok/s
|
800.78 tok/s
|
|
미스트랄-스몰-3.1-24B
|
동일 ISL/OSL
|
2490.77 tok/s
|
2550.09 tok/s
|
2390.09 tok/s
|
|
미스트랄-스몰-3.1-24B
|
전 충전 중량
|
2160.01 tok/s
|
214.38 tok/s
|
1970.92 tok/s
|
|
미스트랄-스몰-3.1-24B
|
디코드 중량
|
238.44 tok/s
|
2370.97 tok/s
|
221.41 tok/s
|
결론
델, GIGABYTE, HP Spark 단위는 소규모 팩별 리드와 함께 무시할 수 없는 성능 격차를 제공합니다. 구매 결정은 차체 설계, 열 성능, 보증,비중이 작은 기준 차이에 대한 판매 후 지원평행성 전략은 OEM 변형보다 훨씬 더 큰 영향을 미칩니다: PP는 배트 추론에 TP를 능가합니다. TP는 단일 스트림 저 지연 상호 작용에 적합합니다.NVIDIA의 TP 추천은 생산 인프라보다는 상호 작용 학습 장치로 스파크의 위치와 일치합니다.이중 노드 스파크 클러스터는 분산 AI를 위한 저렴한 교육 플랫폼으로 기능합니다. 미래 테스트는 더 큰 클러스터와 끝에서 끝까지의 작은 모델 교육을 포함합니다.연구실 800Gb 스위치 배포를 기다리고 있습니다..
베이징 첸징 지에텐 기술 회사, Ltd
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요



