주요 내용
- 플래시 우선 NVMe RAID: PERC13 H975i는 SAS/SATA에서 완전히 벗어나 Broadcom SAS51xx를 기반으로 NVMe 네이티브, AI 준비 아키텍처를 구축합니다.
- 세대별 큰 도약: PCIe Gen5 x16은 컨트롤러당 최대 16개의 NVMe 드라이브(2개 사용 시 32개)를 지원하며 테스트에서 컨트롤러당 52.5GB/s 및 12.5M IOPS를 제공했습니다. PERC12 대비 성능 향상은 읽기 대역폭 +88%, 쓰기 대역폭 +318%, 4K 읽기 IOPS +31%, 4K 쓰기 IOPS +466%입니다.
- AI 서버 적합성: 전면 통합 디자인은 GPU를 위해 후면 PCIe 슬롯을 확보하고 MCIO 연결 거리를 단축하며 각 가속기에 전용 스토리지 파이프를 제공하여 CPU 오버헤드 없이 더 안정적이고 결정적인 처리량을 제공합니다.
- 스트레스 하에서의 복원력: 슈퍼커패시터 보호 캐시와 더 빠른 재구축은 재구축 중에도 높은 성능을 유지하면서(최대 53.7GB/s 읽기, 68GB/s 쓰기, 17.3M/5.33M 4K IOPS) 10분/TiB까지 시간을 단축합니다.
- 엔드투엔드 보안: 하드웨어 루트 오브 트러스트, SPDM 장치 ID, 드라이브, 전송 중인 데이터 및 컨트롤러 캐시를 모두 포함하는 전체 스펙트럼 암호화.
Dell PERC12 H965i 및 PERC13 H975i 사양
| 기능 | PERC12 H965i 전면 | PERC13 H975i 전면 |
|---|---|---|
| RAID 레벨 | 0, 1, 5, 6, 10, 50, 60 | 0, 1, 5, 6, 10, 50, 60 |
| 비RAID (JBOD) | 예 | 예 |
| 호스트 버스 유형 | PCIe Gen4 x16 | PCIe Gen5 x16 |
| 사이드밴드 관리 | I2C, PCIe VDM | I2C, PCIe VDM |
| 포트당 인클로저 수 | 해당 없음 | 해당 없음 |
| 프로세서 / 칩셋 | Broadcom RAID-on-Chip, SAS4116W | Broadcom RAID-on-Chip, SAS5132W |
| 에너지 팩 / 전원 백업 | 배터리 | 슈퍼커패시터 |
| 로컬 키 관리 보안 | 예 | 예 |
| 보안 엔터프라이즈 키 관리자 | 예 | 예 |
| 컨트롤러 큐 깊이 | 8,192 | 8,192 |
| 비휘발성 캐시 | 예 | 예 |
| 캐시 메모리 | 8GB DDR4 3200 MT/s | 통합 RAID 캐시 |
| 캐시 기능 | 쓰기 후, 미리 읽기, 쓰기 통과, 항상 쓰기 후, 미리 읽기 없음 | 쓰기 후, 쓰기 통과, 항상 쓰기 후, 미리 읽기 없음 |
| 최대 복잡한 가상 디스크 수 | 64 | 16 |
| 최대 단순 가상 디스크 수 | 240 | 64 |
| 최대 디스크 그룹 수 | 64 | 32 |
| 디스크 그룹당 최대 VD 수 | 16 | 8 |
| 최대 핫 스페어 장치 수 | 64 | 8 |
| 핫 스왑 장치 지원 | 예 | 예 |
| 자동 구성 (주 및 1회 실행) | 예 | 예 |
| 하드웨어 XOR 엔진 | 예 | 예 |
| 온라인 용량 확장 | 예 | 예 |
| 전용 및 전역 핫 스페어 | 예 | 예 |
| 지원 드라이브 유형 | NVMe Gen3 및 Gen4 | NVMe Gen3, Gen4 및 Gen5 |
| VD 스트라이프 요소 크기 | 64KB | 64KB |
| NVMe PCIe 지원 | Gen4 | Gen5 |
| 구성 최대 NVMe 드라이브 수 | 컨트롤러당 8개 드라이브 | 컨트롤러당 16개 드라이브 |
| 지원되는 섹터 크기 | 512B, 512e, 4Kn | 512B, 512e, 4Kn |
| 스토리지 부팅 지원 | UEFI 전용 | UEFI 전용 |
Dell PowerEdge 서버의 PERC13 H975i 전면 컨트롤러는 시스템 아키텍처에 원활하게 통합되도록 설계되었습니다. 후면 PCIe 슬롯을 차지하는 기존 애드인 카드와 달리 H975i는 전면 드라이브 백플레인에 직접 연결되고 전용 PCIe 5.0 인터페이스를 통해 마더보드의 전면 MCIO 커넥터와 인터페이스합니다. 이 통합 디자인은 고성능 GPU 및 추가 PCIe 확장을 위해 후면 PCIe 슬롯을 확보하는 동시에 케이블 길이를 크게 줄입니다. 이는 신호 무결성을 유지하는 데 도움이 되어 시스템을 더 안정적이고 서비스하기 쉽게 만듭니다. 결과적으로 내부 레이아웃이 깔끔해지고 밀집된 컴퓨팅 집약적 배포를 위한 공기 흐름이 개선됩니다.
H975i는 실리콘 수준의 하드웨어 증명부터 SED 드라이브를 사용한 전체 스펙트럼 데이터 암호화까지 포괄적인 보안 아키텍처를 구현합니다. 기본적으로 하드웨어 루트 오브 트러스트는 내부 부팅 ROM부터 각 펌웨어 구성 요소까지 변경 불가능한 암호화 검증 체인을 설정하여 인증된 Dell 인증 펌웨어만 컨트롤러에서 실행될 수 있도록 보장합니다. 이 하드웨어 기반 보안은 보안 프로토콜 및 데이터 모델(SPDM) 구현을 통해 확장되며, 각 컨트롤러에는 고유한 장치 ID 인증서가 포함되어 iDRAC가 실시간 인증 검증을 수행할 수 있습니다. 컨트롤러는 기존 데이터 저장 시나리오를 넘어 캐시 메모리까지 암호화 보호를 확장합니다. 승인되지 않은 펌웨어에서 액세스할 수 없는 보안 메모리 영역에 암호화 키를 유지합니다. 결과적으로 민감한 데이터는 드라이브에 있든 캐시에서 활발하게 처리 중이든 보호됩니다.
H975i의 전원 보호는 슈퍼커패시터를 통합하여 기존 배터리 백업 시스템에서 또 다른 중요한 발전을 이루었습니다. 슈퍼커패시터는 예기치 않은 전원 손실 이벤트 중에 즉각적인 전원 공급을 제공하여 암호화되고 완전한 캐시 플러시를 비휘발성 스토리지로 보장하며, 여기서 데이터는 영구적으로 보호됩니다. 또한, 학습 주기에 4-8시간이 필요한 배터리 기반 시스템과 달리 H975i의 슈퍼커패시터는 보정 중 성능 저하 없이 5-10분 내에 투명 학습 주기를 완료합니다. 이 설계는 배터리 솔루션에 내재된 유지 관리 오버헤드와 성능 저하 문제를 제거하는 동시에 미션 크리티컬 데이터 보호를 위한 뛰어난 신뢰성을 제공합니다.
통합 모니터링 및 관리
Dell의 PERC13 RAID 컨트롤러는 Dell의 많은 RAID 솔루션과 마찬가지로 플랫폼 부팅 중 BIOS의 시스템 설정, iDRAC 웹 GUI, PERC12 유틸리티, 심지어 Dell OpenManage UI 및 CLI를 포함한 다양한 방법으로 관리 및 모니터링할 수 있습니다.
iDRAC 컨트롤러 관리
iDRAC 관리 인터페이스를 볼 때 컨트롤러 탭은 서버의 스토리지 하드웨어에 대한 개요를 제공합니다. BOSS 카드와 함께 펌웨어 버전, 캐시 메모리 및 배터리 상태에 대한 정보가 포함된 듀얼 PERC H975i 컨트롤러를 볼 수 있습니다. 이 요약을 통해 BIOS에 액세스하거나 CLI 도구를 사용하지 않고도 컨트롤러의 준비 상태와 구성을 신속하게 확인할 수 있습니다.
iDRAC의 가상 디스크 탭은 생성된 스토리지 배열을 RAID 레벨, 크기 및 캐싱 정책과 함께 보여줍니다. 이 시스템에서는 SSD를 기반으로 구축된 두 개의 RAID-10 그룹이 나열됩니다. 이 보기에서 관리자는 볼륨이 온라인 상태인지 확인하고, 새 가상 디스크를 생성하거나, 작업 메뉴를 사용하여 기존 구성을 조정하거나 삭제할 수 있습니다.
RAID 컨트롤러 구성 유틸리티
위 이미지는 PowerEdge R7715 플랫폼에서 PERC H975i 전면 구성 유틸리티 시스템 설정에 들어가는 예시를 보여줍니다. 이 인터페이스를 통해 구성 관리, 컨트롤러 관리, 장치 관리 등 모든 주요 RAID 컨트롤러 설정을 관리할 수 있습니다. 이 유틸리티는 플랫폼 부팅 프로세스 중에 가상 디스크를 설정하고 하드웨어 구성 요소를 직접 모니터링하는 간소화된 방법을 제공합니다.
RAID 레벨을 선택한 후 배열에 사용할 물리적 디스크를 선택합니다. 이 예에서는 사용 가능한 모든 NVMe SSD가 나열되고 RAID 가능으로 표시됩니다. 구성되지 않은 용량 풀에서 3.2TiB Dell DC NVMe 드라이브 여러 개를 선택합니다. 미디어 유형, 인터페이스, 논리 섹터 크기와 같은 필터를 사용하여 선택 범위를 좁힐 수 있습니다. 원하는 드라이브를 선택한 후 '확인'을 클릭하여 디스크 선택을 완료하고 가상 디스크 생성을 계속할 수 있습니다.
가상 디스크 생성을 완료하기 전에 시스템은 선택한 물리적 디스크의 모든 데이터가 영구적으로 삭제됨을 확인하는 경고를 표시합니다. 계속하려면 '확인' 상자를 선택하고 '예'를 선택하여 작업을 승인합니다. 이 안전 장치는 RAID 생성 프로세스 중 실수로 인한 데이터 손실을 방지하는 데 도움이 됩니다.
가상 디스크가 생성되면 '가상 디스크 관리' 메뉴 아래에 나타납니다. 이 예에서는 새로 생성된 RAID 5 가상 디스크가 43.656TiB 용량과 '준비' 상태로 나열됩니다. 몇 가지 간단한 단계만 거치면 스토리지가 구성되어 사용할 준비가 됩니다.
PERC BIOS 구성 유틸리티 및 iDRAC 인터페이스는 로컬 및 원격 관리를 위한 직관적인 옵션을 제공하지만, Dell은 PERC CLI(perccli2)라는 강력한 명령줄 도구도 제공합니다. 이 유틸리티는 Windows, Linux 및 VMware를 지원하므로 스크립팅, 자동화 또는 헤드리스 환경에서 PERC 컨트롤러를 관리하는 데 이상적입니다. Dell은 또한 지원 사이트에서 PERC CLI의 설치 및 명령 사용에 대한 자세한 문서를 제공합니다.
Dell PERC13 성능 테스트
성능 테스트에 들어가기 전에 듀얼 PERC H975i 전면 컨트롤러로 구성된 Dell PowerEdge R7715 플랫폼을 사용하여 환경을 준비했습니다. 이들은 각각 최대 12,000MB/s 순차 읽기 및 5,500MB/s 순차 쓰기(128KiB 블록 크기 사용)로 평가된 32개의 3.2TB Dell NVMe 드라이브와 페어링되었습니다. 이 고성능 기반을 통해 PERC13 컨트롤러의 처리량 한계를 밀어붙이고 대규모 RAID 동작을 평가할 수 있습니다.
- 플랫폼: Dell PowerEdge R7715
- CPU: AMD EPYC 9655P 96코어 프로세서
- RAM:768GB (12 x 64GB) DDR5-5200 ECC
- RAID 컨트롤러:2 x PERC13 H975i
- 스토리지:32 x 3.2TB Dell CD8P NVMe 드라이브
- PCIe 가속기: 2 x NVIDIA H100 GPU
NVIDIA Magnum IO GPU Direct Storage: AI와 스토리지의 만남
최신 AI 파이프라인은 종종 컴퓨팅 바운드가 아닌 I/O 바운드입니다. 데이터 배치, 임베딩 및 체크포인트는 가속기를 바쁘게 유지할 만큼 빠르게 스토리지에서 GPU 메모리로 전송되어야 합니다. NVIDIA의 Magnum IO GDS(cuFile 경유)는 기존의 'SSD → CPU DRAM → GPU' 경로를 단축하고 데이터가 NVMe에서 GPU 메모리로 직접 DMA되도록 합니다. 이는 CPU 바운스 버퍼 오버헤드를 제거하고 지연 시간을 줄이며 부하 시 처리량을 더 예측 가능하게 만들어 GPU 활용률을 높이고 에포크 시간을 단축하며 체크포인트 저장/로드 주기를 더 빠르게 만듭니다.
당사의 GDSIO 테스트는 스토리지-GPU 데이터 경로 자체를 측정하도록 설계되었으며, 블록 크기와 스레드 수를 스윕하여 PERC13 기반 NVMe 세트가 H100 메모리로 얼마나 빨리 스트리밍될 수 있는지 보여줍니다. 각 H975i가 PCIe 5.0 x16 링크(이론상 컨트롤러당 약 64GB/s, 단방향)에 연결되어 두 개의 컨트롤러는 약 112GB/s의 집계 상한선을 설정합니다. 곡선이 평탄해지는 지점은 링크 또는 미디어 제한인지 여부를 나타냅니다. 실무자를 위해 차트를 실제 워크로드의 프록시로 읽으십시오. 대규모 순차 읽기는 데이터셋 스트리밍 및 체크포인트 복원과 일치합니다. 대규모 순차 쓰기는 체크포인트 저장과 일치합니다. 동시성이 있는 소규모 전송은 데이터 로더 셔플 및 사전 로드를 반영합니다. 요컨대, 강력한 GDSIO 확장은 GPU 중단을 줄이고 학습 및 고처리량 추론 모두에서 더 일관된 성능을 의미합니다.
GDSIO 읽기 순차 처리량
순차 읽기로 시작하여, 처리량은 낮은 블록 크기와 스레드 수에서 완만하게 시작하여 단일 스레드에서 8K 블록에서 약 0.3GiB/s로 시작했습니다. 성능은 16K에서 512K 블록 사이, 특히 스레드 수를 4에서 16으로 늘릴 때 가파르게 확장되었습니다. 1M, 5M, 10M 블록 크기에서 가장 상당한 이득이 발생했으며, 처리량은 256 스레드에서 10M 블록 크기에서 103GiB/s로 정점을 찍었습니다. 이 진행은 PERC13 배열이 더 큰 블록 크기와 다중 스레드 병렬 처리의 이점을 얻으며, 64-128 스레드 주변에서 최적의 포화 상태를 보이며, 그 이상에서는 이득이 평탄해짐을 보여줍니다.
GDSIO 읽기 순차 처리량 차이
8K에서 10M까지의 블록 크기에 걸친 순차 읽기 테스트에서 PERC13(H975i)은 PERC12(H965i)보다 일관되게 뛰어난 성능을 보였으며, 백분율 이득은 더 큰 블록 크기와 더 높은 스레드 수에서 극적으로 확장되었습니다.
더 작은 블록 크기(8K-16K)에서는 개선이 완만했으며(일반적으로 0-20% 범위), 일부 개별 사례에서는 낮은 큐 깊이에서의 테스트 변동성으로 인해 H975i가 약간 뒤처졌습니다. 32K-64K 블록 크기에서는 이점이 더 일관되었으며, H975i는 대부분의 스레드 수에서 30-50% 더 높은 처리량을 제공했습니다.
가장 큰 차이는 더 큰 블록 크기(128K ~ 10M)에서 관찰되었으며, 여기서 PERC13 컨트롤러는 시스템의 전체 순차 읽기 잠재력을 발휘했습니다. 여기서 H975i는 H965i에 비해 50-120%의 이득을 보였습니다. 예를 들어, 8-16 스레드를 사용하는 1M 블록 크기에서는 처리량이 55GiB/s 이상 높았으며, 이는 약 90%의 향상에 해당합니다. 5M 및 10M 블록 크기에서는 개선이 정기적으로 100%를 초과했으며, 일부 구성에서는 이전 세대에 비해 거의 두 배의 성능을 보였습니다.
전반적으로 PERC13(H975i)은 특히 블록 크기와 스레드 수가 확장됨에 따라 순차 읽기 워크로드에서 압도적인 우위를 확보했습니다. 더 작은 블록 크기에서는 점진적인 개선을 보였지만, 256K 이상에서는 최신 컨트롤러가 일관되게 50-100% 이상 높은 성능을 제공하여 Dell의 최신 RAID 플랫폼의 아키텍처 발전을 명확하게 강조했습니다.
GDSIO 읽기 순차 지연 시간
순차 읽기 처리량이 증가함에 따라 더 작은 블록 크기와 낮은 스레드 수에서는 지연 시간이 관리 가능했습니다. 예를 들어, 지연 시간은 64K 블록 및 16 스레드까지 100μs 미만을 유지하여 해당 범위에서 읽기를 효율적으로 처리했음을 보여줍니다. 블록 크기와 스레드 수가 더 높아지고, 특히 64개 이상의 스레드를 사용하는 5M 및 10M에서는 지연 시간이 급격히 증가하여 256 스레드를 사용하는 10M 블록 크기에서 211.8ms로 정점을 찍었습니다. 이는 처리량이 높더라도 극한 워크로드에서 컨트롤러 또는 큐잉 병목 현상이 발생하는 이유를 강조합니다.
성능과 효율성의 최적의 균형은 1M 블록 크기에서 8-16 스레드를 사용할 때 관찰되었으며, 여기서 처리량은 87.5-93.7GiB/s를 유지하면서 지연 시간은 179-334μs 범위 내로 유지되었습니다. 이 영역은 1밀리초 미만으로 지연 시간을 유지하면서 대역폭을 최대화하는 데 최적의 지점입니다.
GDSIO 쓰기 순차 처리량
쓰기 성능은 블록 크기가 증가함에 따라 초기에는 강력한 확장을 보였으며, 처리량은 8K 및 1 스레드에서 1.2GiB/s에서 256K까지 증가했습니다. 가장 상당한 성장은 128K에서 1M 블록 크기 사이에서 나타났으며, 여기서 처리량은 8-16 스레드에서 80GiB/s 이상에 도달했습니다. 피크 성능은 5M 및 10M 블록 크기에서 나왔으며, 8 스레드부터 100-101GiB/s를 유지했습니다.
이러한 더 큰 블록의 경우 8-64 스레드에서 성능이 평탄해졌으며, 이는 컨트롤러가 확장 곡선 초기에 포화 상태에 도달했음을 나타냅니다. 특히 128 및 256 스레드와 같은 더 높은 스레드 수에서는 처리량 안정성이 다양했으며, 대규모 5M 및 10M 블록에서는 101GiB/s로 일정하게 유지되었지만 256K와 같은 중간 범위 블록 크기에서는 32 스레드에서 61.2GiB/s에서 256 스레드에서 45.3GiB/s로 감소했습니다.
GDSIO 쓰기 순차 처리량 차이
순차 쓰기 테스트에서 PERC13(H975i)은 특히 블록 크기와 스레드 수가 확장됨에 따라 PERC12(H965i)에 비해 상당한 이득을 제공했습니다. 작은 블록 크기(8K-32K)에서는 개선이 완만했으며, 일반적으로 0-10% 범위였고, 때때로 테스트 노이즈로 인해 미미한 차이가 나타났습니다.
64K부터 H975i의 이점이 더 두드러졌습니다. 64K 블록 크기에서는 개선이 40-70%에 달했으며, 처리량은 H965i에 비해 12-17GiB/s 이상 증가했습니다. 128K-256K에서는 향상이 더 강해졌으며, H975i는 중간에서 높은 스레드 수에서 일관되게 50-70% 더 높은 처리량을 제공했습니다.
가장 극적인 성능 격차는 더 큰 블록 크기(512K ~ 10M)에서 나타났습니다. 512K에서 H975i는 +31 ~ +56GiB/s의 이득을 달성했으며, 이는 H965i에 비해 60-80% 향상되었습니다. 1M 블록 크기에서는 리드가 더 확장되었으며, 처리량은 +40 ~ +68GiB/s 증가하여 70-90% 향상을 나타냈습니다. 마지막으로 5M 및 10M 블록 크기에서는 PERC 13이 PERC 12에 비해 처리량이 거의 두 배가 되었으며, 델타는 +75 ~ +79GiB/s로, 일부 스레드 풍부 시나리오에서는 100% 향상을 가져왔습니다.
전반적으로 PERC 13 컨트롤러는 순차 쓰기 워크로드에서 명확한 세대 도약을 보였습니다. 가장 작은 블록 크기에서는 차이가 미미하지만, 워크로드가 64K를 초과하면 H975i는 일관되게 50-100% 더 높은 처리량을 제공하여 쓰기 집약적인 순차 워크로드에서 H965i에 비해 우수성을 확고히 했습니다.
GDSIO 쓰기 순차 지연 시간
순차 쓰기 중 지연 시간은 작은 블록 크기와 낮은 스레드 수에서 인상적으로 낮게 유지되었으며, 종종 128K 블록 및 최대 8 스레드까지 50μs 미만을 유지했습니다. 스레드 수가 증가함에 따라 지연 시간이 더 눈에 띄게 확장되었습니다. 예를 들어, 32 스레드를 사용하는 512K에서 지연 시간은 392μs에 도달했으며, 64 스레드를 사용하는 1M 블록 크기에서는 1ms를 초과했습니다.
가장 큰 블록 크기와 가장 높은 동시성 수준에서 포화 효과가 더 분명해졌습니다. 지연 시간은 128 스레드를 사용하는 5M에서 12.4ms로 증가했으며, 256 스레드를 사용하는 10M에서 50.3ms로 정점을 찍었습니다.
순차 쓰기 워크로드에 대한 가장 효율적인 작동 지점은 1M 또는 5M 블록 크기에서 8-16 스레드를 사용할 때 발생했으며, 여기서 처리량은 87.9 ~ 101.2GiB/s에 도달하는 동시에 지연 시간은 178μs – 1.7ms 범위 내로 유지되어 과도한 쓰기 큐 지연을 유발하지 않으면서 강력한 지속 성능을 제공했습니다.
MLPerf 스토리지 2.0 성능
AI 학습 환경에서의 실제 성능을 평가하기 위해 MLPerf 스토리지 2.0 테스트 스위트를 활용했습니다. MLPerf 스토리지는 실제 시뮬레이션된 딥 러닝 워크로드의 I/O 패턴을 테스트하도록 특별히 설계되었습니다. 스토리지 시스템이 체크포인팅 및 모델 학습과 같은 문제를 어떻게 처리하는지에 대한 통찰력을 제공합니다.
체크포인팅 벤치마크
머신 러닝 모델을 학습할 때 체크포인트는 모델의 상태를 주기적으로 저장하는 데 필수적입니다. 이는 하드웨어 오류와 같은 중단으로 인한 진행 상황 손실을 방지하고, 학습 중 조기 중단을 가능하게 하며, 연구자가 실험 및 분석을 위해 다양한 체크포인트에서 분기할 수 있도록 합니다.
체크포인트 저장 시간 비교 결과, Dell PERC13은 모든 모델 구성에서 PERC12보다 일관되게 뛰어난 성능을 보였습니다. PERC 13은 7.61초에서 10.17초 사이의 저장 시간을 달성한 반면, PERC12는 동일한 작업을 위해 10.41초에서 20.67초가 필요했습니다. 성능 격차는 1T 매개변수 모델에서 가장 두드러졌으며, PERC13은 PERC12의 20초 이상에 비해 10초 조금 넘는 시간 안에 저장을 완료했습니다. 이는 가장 큰 모델의 저장 시간을 약 50% 단축한 것입니다.
저장 처리량 결과 검토 결과, 데이터는 PERC13의 우수한 대역폭 활용도를 보여주며 일관되게 더 높은 데이터 전송 속도를 제공합니다. PERC13은 11.46GB/s에서 14.81GB/s 사이의 처리량을 달성하며, 1T 모델에서 최고 성능을 기록합니다. 대조적으로 PERC12는 최대 9.49GB/s이며 가장 큰 구성에서는 6.98GB/s로 떨어집니다. 최신 컨트롤러는 체크포인트 작업의 일반적인 대규모 순차 쓰기 처리를 위한 더 나은 최적화를 시사하며, 다양한 모델 크기에 걸쳐 더 안정적인 성능을 유지합니다.
담당자: Ms. Sandy Yang
전화 번호: 13426366826



