DapuStor J5060 사양
| J5060 | |
|---|---|
| 용량 (TB) | 61.44 |
| 형태 요인 | U.2 15mm |
| 인터페이스 | PCIe 4.0 x4, NVMe 1.4a, 듀얼 포트 지원 |
| 읽기/쓰기 대역폭 (128K) MB/s | 7400 / 3000 |
| 무작위 읽기/쓰기 (4KB) K IOPS | 1500 / 30 (16KB) |
| 4K 랜덤 레이텐시 (타입) R/W μs | 105 (4KB) / 33 (16KB) |
| 4K 연속 지연 (형) R/W μs | 7 (4KB) / 12 (16KB) |
| 일반적인 전력 (W) | 23 |
| 정지 전력 (W) | 5 |
| 플래시 타입 | 3D 엔터프라이즈 QLC NAND 플래시 |
| 인내심 | 0.5 DWPD |
| MTBF | 2백만 시간 |
| 우버 | 10^17 비트당 1 섹터 |
| 보증 | 5년 |
DapuStor J5060 성능
체크포인트
인공지능 훈련 환경에서 Dapustor J5060 SSD의 실제 성능을 평가하기 위해 우리는 Argonne National Laboratory에서 개발한 데이터 및 학습 입력 / 출력 (DLIO) 벤치마크 도구를 활용했습니다.,DLIO는 딥 러닝 워크로드에서 I/O 패턴을 테스트하기 위해 특별히 설계되었습니다.그리고 모델 교육아래의 도표는 99개의 체크포인트를 통해 두 드라이브가 프로세스를 처리하는 방법을 보여줍니다. 머신러닝 모델을 훈련할 때, 체크포인트는 주기적으로 모델 상태를 저장하기 위해 필수적입니다.정지 또는 전력 고장 시 진행 손실을 방지하는 것이러한 저장 수요는 특히 지속적인 또는 집중적인 작업 부하에서 강력한 성능을 요구합니다.
이 작업을 위해 선택한 플랫폼은 우분투 22를 실행하는 Dell PowerEdge R760입니다.04.02 LTS. 우리는 DLIO 벤치마크 버전 2.0을 2024년 8월 13일 출시에서 사용했습니다. 시스템 구성은 아래와 같습니다:
- 2 x 인텔 Xeon 골드 6430 (32 코어, 2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB Dell BOSS SSD
- 연쇄 케이블 Gen5 JBOF
- 6144TB Dapustor J5060
- 61.44TB 솔리디그 D5-P5336
우리의 벤치마킹이 실제 시나리오를 반영하는지 확인하기 위해, 우리는 LLAMA 3.1 405B 모델 아키텍처에 테스트를 기초했습니다. 우리는 모델 매개 변수를 캡처하기 위해 torch.save() 를 사용하여 체크포인팅을 구현했습니다.최적화 상태우리의 설정은 8GPU 시스템을 시뮬레이션하여 4차원 텐서 병렬과 2차원 파이프라인 병렬 처리 8GPU에 분산된 하이브리드 병렬화 전략을 구현했습니다.이 구성은 1636GB의 체크 포인트 크기를 가져왔으며, 현대적인 큰 언어 모델 훈련 요구 사항에 해당합니다.
전반적으로 Dapustor J5060은 초기 테스트 단계에서 575.66초의 첫 33개의 체크포인트를 통해 안정성을 보여주었습니다.5060J는 드라이브가 처음으로 채워지기 전에 더 높은 성능을 유지할 수 있었습니다.다른 한편으로, 솔리디그 P5336는 J5060보다 초기에는 느렸지만 테스트가 계속되면서 일관된 성능을 보여주었습니다.
언제?전체 평균을 고려하면 Dapustor J5060은7690.44초, 솔리디그 P5336는 640.17초이것은 Solidigm P5336를 더 빨리 체크포인트를 절약하는 측면에서 앞서게 합니다.
전체적으로, Dapustor J5060는 짧은 작업을 잘 처리하지만 30분 이상 지속되는 작업에 어려움을 겪습니다.솔리디그 P5336는 장기적인 작업에서 일관된 성능을 위한 더 나은 드라이브입니다.Dapustor J5060의 이 약한 기록 성능은 테스트가 계속되면서 체크포인팅 속도가 악화될 때 분명합니다.
GPU 직접 저장
GPU 다이렉트 스토리지 (GPU Direct Storage) 는 CPU와 시스템 메모리를 우회하여 스토리지 장치와 GPU 사이의 직접 데이터 전송을 가능하게 하는 기술이다. 전통적인 데이터 전송에서,데이터 저장소에서 CPU의 메모리에 읽고 GPU의 메모리에 복사됩니다.이 프로세스에는 여러 데이터 복사본이 포함되며, 이는 지연 시간 증가와 성능 감소로 이어진다. CPU는 저장장치와 GPU 사이의 데이터 전송을 처리해야 하기 때문에 병목 역할을 한다.GDS는 저장 장치가 GPU의 메모리로 데이터를 전송할 수 있도록 직접 허용함으로써 이러한 병목을 제거합니다..
우리는 체계적으로 다음 매개 변수들의 모든 조합을 읽기 및 쓰기 작업량에서 테스트했습니다.
- 블록 크기: 1M, 128K, 16K
- IOD 깊이: 128, 64, 32, 16, 8, 4, 1
GDSIO 결과를 검토하면서 61.44TB Dapustor J5060과 Solidigm P5336의 읽기 및 쓰기 성능을 조사합니다.
GDSIO 순차 읽기 성능
다푸스터 J5060은 1M 블록 크기와 64 및 128의 IO 깊이에서 4.2 GiB / s의 최고 읽기 처리량을 달성합니다. 가장 작은 블록 크기 (16K) 에서 성능은 0.1 GiB / s에서 0.8 GiB/s IO 깊이가 증가함에 따라이것은 최적의 처리량을 위해 높은 IO 깊이를 가진 더 큰 블록 크기에 대한 분명한 선호도를 보여줍니다. 최대 성능은 큰 블록 크기에서 달성됩니다.대용량 데이터 전송을 처리하는 드라이브의 효율성을 나타내는.
비교적으로, 솔리디그 P5336는 4의 비슷한 최대 처리량을 달성했습니다.3 GiB/s 같은 블록 크기 (1M) 에서, 그러나 32의 IO 깊이에서 이전에 그 성능을 달성하고 더 높은 IO 깊이에서 지속적으로 유지이것은 Solidigm P5336의 더 넓은 범위의 IO 깊이에서 큰 블록 크기를 처리하는 데 조금 더 나은 효율성을 제안합니다.
더 나은 비교를 위해, 우리는 두 드라이브를 비교하는 미분 차트를 가지고 있습니다. 녹색 그림자 블록은 Dapustor SSD의 장점을 보여줍니다.스펙트럼의 빨간 쪽으로 이동하는 블록은 약점을 보여줍니다.여기서, J5060는 4 ~ 8 IO 깊이를 제외하고 128K 블록 크기에서 P5336를 능가합니다. 그러나 16K 및 1M 블록 크기와 더 높은 IO 깊이에서 처리량 하락이 관찰됩니다.그 시나리오에서 효율성이 떨어지는 것을 나타냅니다..
순차적인 읽기 지연 비교에서, Solidigm P5336는 거의 모든 블록 크기와 IO 깊이에서 Dapustor J5060보다 낮은 지연을 지속적으로 유지합니다. 16K 블록 크기에서,격차는 줄의 깊이가 증가함에 따라 더 두드러집니다: J5060은 깊이 128에서 2,329μs에서 최고, P5336는 깊이 1,365에서 낮은 상태를 유지합니다.J5060에 080μs 대 P5336에 5539 μs) 깊이 1281M 블록 크기에서 두 드라이브 모두 예상대로 대기 시간이 증가하지만 P5336는 29,138 μs 대 29,512 μs로 가장 높은 대기선 깊이에서 약간 더 잘 제어됩니다.
GDSIO 서열 적기 성능
Dapustor J5060는 모든 IO 깊이를 통해 128K 및 1M 블록 크기에 2.7에서 2.8 GiB / s의 일관된 기록 처리량을 보여줍니다.성능 범위는 0IO 깊이에 따라 0.5 GiB/s에서 1.4 GiB/s까지, IO 깊이가 높을 때 1.4 GiB/s로 정점을 찍는다.
비교하여, 솔리디엄 P5336는 128K 및 1M 블록 크기에서 3.2GiB/s로 최고 성능을 발휘합니다. 소규모 블록 크기 (16K) 에서 솔리디엄 P5336는 더 높은 성능을 보여줍니다.1의 정점에 도달하는16에서 64의 IO 깊이에서.4 GiB / s. 이것은 Solidigm P5336가 기록 작업 중에 작은 블록 크기로 약간 더 효율적이라는 것을 나타냅니다.
디퍼런셜 뷰로 이동하면 Dapustor J5060과 Solidigm P5336의 기록 성능 사이에 더 큰 격차가 열려 있습니다.우리의 처리량 비교는 J5060가 대부분의 영역에서 P5336에 뒤떨어지는 것을 보여줍니다., 특히 모든 IO 깊이에서 큰 블록 크기 (1M) 와 함께. 처리량은 4 IO 깊이에서 -0.5 GiB/s까지 떨어집니다. 128K 블록 크기로 더 높은 IO 깊이에서 성능 향상이 있지만,그들은 더 넓은 저성능을 보완하기에 충분히 중요하지 않습니다..
Dapustor J5060과 Solidigm P5336의 연속적인 기록 지연을 비교할 때, 두 드라이브는 16K와 같은 작은 블록 크기에 비슷한 행동을 나타냅니다.소리디그마가 낮은 IO 깊이에서 약간의 가장자리를 유지하며, Dapustor는 더 높은 깊이 (64 및 128) 에서 격차를 줄입니다. 128K 블록 크기에서 Solidigm는 다시 얇은 줄 깊이에서 선두를 차지합니다.하지만 Dapustor는 지속적으로 IO 깊이가 증가함에 따라 낮은 지연을 제공합니다하지만 1M 블록 크기로 Solidigm는 모든 IO 깊이에서 명확한 지연 장점을 유지합니다.가중한 순차적인 쓰기 작업 부하에서 훨씬 빠른 응답 시간을 보여줍니다.전체적으로, 솔리디그마는 더 일관성 있는 성능을 보이고, 다푸스터의 힘은 중간 크기의 블록과 더 깊은 대기열에서 더 눈에 띄고 있다.
FIO 작업량 요약
플렉서블 I/O 테스터 (Flexible I/O Tester, FIO) 는 다양한 작업 부하 시나리오에서 저장 장치의 성능을 측정하는 데 사용되는 산업 표준 벤치마크 도구입니다.다양성 과 신뢰성 으로 신뢰, FIO는 실제 상황을 시뮬레이션하여 SSD의 기능과 성능 한계에 대한 통찰력을 제공합니다. 스토리지 리뷰는 FIO를 활용하여 포괄적인 분석, 처리량 측정, 대기 시간을 제공합니다.,작업 부하 패턴, 블록 크기와 대기열 깊이에 걸쳐 IOPS를 사용합니다.
적용된 작업 부하:
- 128K 연속 읽기 및 쓰기
- 64K 무작위로 읽고 쓰는
- 16K 무작위로 읽고 쓰는
- 4K 무작위 읽기 및 쓰기
이러한 작업 부하는 대기업 사용 사례의 광범위한 스펙트럼을 나타냅니다. 대규모 순차 전송, 데이터베이스의 전형적인 집중적인 무작위 I/O,그리고 작은 블록의 무작위 접근은 가상화된 환경에서 흔히 볼 수 있습니다..
이 성능 섹션에서는 Dapustor J5060s의 성능을 일련 및 무작위 읽기 / 쓰기 작업을 포함하여 주요 합성 작업량에서 다양한 블록 크기와 큐 깊이에서 요약합니다.메트릭은 분석된 fio 출력에서 직접 추출되며 대역폭 (MB/s) 을 포함합니다., IOPS, 그리고 99.9999%까지의 지연 퍼센티일은 처리량과 꼬리 동작에 대한 통찰력을 제공합니다.
128K 연속 읽기 및 쓰기 성능
| 드라이브 | 스레드/IO 깊이 | BW (MB/s) | IOPS | 990.0% | 990.9% | 990.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 읽습니다 | 1T/64Q | 7,482 | 57,081 | 10.66ms | 20.02ms | 20.83ms |
| Solidigm P5336 읽기 | 1T/64Q | 7,479 | 57,057 | 1.51ms | 10.66ms | 10.81ms |
| Dapustor J5060 쓰기 | 1T/16Q | 3,023 | 23,063 | 00.69ms | 00.69ms | 00.70ms |
| Solidigm P5336 쓰기 | 1T/16Q | 3,364 | 25,669 | 20.67ms | 30.48ms | 4.42ms |
다푸스터 J5060는 128K에서 7.48GB/s까지 도달하여 높은 퍼센틸에서도 긴밀한 지연 제어로 인상적인 순차적 읽기 성능을 제공합니다.J5060의 처리량은 본질적으로 동일합니다 (7.48GB/s 대 7.47GB/s). 그러나, 솔리디그름은 약간 낮은 꼬리 지연을 보여주며 지연 일관성에서 약간의 우위를 유지합니다.
128K 순차 기록 (QD16) 에서, J5060은 매우 낮은 지연시간과 함께 3,023MB/s의 탄탄한 성능을 달성합니다. 그러나 Solidigm P5336는 3,364MB/s에 도달하여 온건한 간격으로 이를 능가합니다.특히 더 높은 지연 시간에도 불구하고특히 99.99% 퍼센틸 (4.42ms 대 Dapustor의 0.70ms). 이것은 J5060이 지연 감수성 순서적 쓰기 시나리오에 더 강력한 후보라는 것을 나타냅니다.
64K 무작위 읽기 및 쓰기 성능
| 드라이브 | IO 깊이 | BW (MB/s) | IOPS | 990.0% | 990.9% | 990.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 읽습니다 | 8T/32Q | 7,475 | 114,058 | 200.05ms | 210.89ms | 250.82ms |
| Solidigm P5336 읽기 | 8T/32Q | 7,472 | 114,014 | 210.36ms | 210.89ms | 220.68ms |
| Dapustor J5060 쓰기 | 8T/32Q | 534 | 8,151 | 574.6ms | 708.8ms | 7420.39ms |
| Solidigm P5336 쓰기 | 8T/32Q | 857 | 13,070 | 196.1 ms | 208.6ms | 221.24ms |
64K 무작위 판독 (QD256) 에서 Dapustor J5060은 7.4GB/s에 가까운 처리량과 잘 제어된 대기 시간으로 우수한 성능을 발휘합니다.조금 더 좋은 최대 퍼센틸 지연이 두 드라이브는 극히 적은 실질적인 차이로 뛰어난 성능을 보여준다.
64K 랜덤에서 기록 성능은 J5060이 눈에 띄게 어려움을 겪는 부분이며, 처리 속도는 534MB/s로 급격히 떨어지고 대기 시간이 크게 증가합니다 (742.39ms 99.99%).솔리디그마 P5336는 J5060보다 훨씬 뛰어나고, 857MB/s를 제공 하 고 급격히 낮은 지연 (221.24ms 같은 퍼센틸에서), 그것은 훨씬 더 잘 지연에 민감한 응용 프로그램 및 지속적인 기록 처리량에 적합 합니다.
16K 무작위 읽기 및 쓰기 성능
| 드라이브 | IO 깊이 | BW (MB/s) | IOPS | 990.0% | 990.9% | 990.99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 읽습니다 | 8T/32Q | 7,430 | 453,461 | 5.28ms | 60.39ms | 8.16ms |
| Solidigm P5336 읽기 | 8T/32Q | 7,431 | 453,527 | 50.01ms | 5.21ms | 50.47ms |
| Dapustor J5060 쓰기 | 8T/32Q | 531 | 32,404 | 143.65ms | 1490.94ms | 181.40ms |
| Solidigm P5336 쓰기 | 8T/32Q | 847 | 51,724 | 57.9ms | 65.8ms | 71.8ms |
16K 무작위 읽기 워크로드 (QD256) 에서 Dapustor는 453K IOPS와 제어 된 대기 시간으로 우수한 결과를 달성합니다.간격에서 Dapustor를 약간 벗어납니다 (5.47ms 대 8.16ms 99.99%) 로, 무거운 무작위 판독 시나리오에서 Solidigm에 대한 약간 더 나은 대기 지속성을 제안합니다.
Dapustor SSD의 16K 무작위 기록 성능은 32K IOPS로 크게 떨어지고, 대기 시간은 181.4ms (99.99%) 로 증가합니다. 여기서도 Solidigm은 Dapustor 드라이브를 크게 능가합니다.전달 51.7K IOPS와 극적으로 향상된 대기 시간 프로필 (71.8ms 99.99%) 은 대기 시간 민감한 무작위 기록 작업 부하에 대한 Solidigm의 장점을 강조합니다.
베이징 첸징 지에텐 기술 회사, Ltd
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요



