주요 내용
- 단일 노드에서 전례 없는 처리량: R7725xd는 300GB/s 이상의 내부 대역폭과 NVMe-oF RDMA를 통한 160GB/s를 유지하여 2U 섀시 내에서 다중 노드 스토리지 클러스터에 필적합니다.
- 진정한 Gen5 아키텍처, 스위치 없음, 팬아웃 없음: 모든 24개의 Micron 9550 PRO SSD는 CPU 복합체에서 직접 전용 x4 PCIe Gen5 레인을 수신하여 경합 없이 라인 속도 확장을 가능하게 합니다.
- AMD EPYC 9005 시리즈 기반: 듀얼 AMD EPYC 9575F 프로세서는 지속적인 고동시성 I/O에 필요한 레인 수, 메모리 대역폭 및 NUMA 토폴로지를 제공합니다.
- AI, 분석 및 체크포인트 집약적 워크로드용으로 설계됨: 이 시스템은 최신 GPU 파이프라인을 지연시키는 I/O 병목 현상을 제거하여 지속적인 고대역폭 데이터 전달을 가능하게 합니다.
- PEAK:AIO, 전체 병렬성 잠금 해제: PEAK:AIO의 소프트웨어 스택은 부하 시 큐 구조를 포화 상태로 유지하여 매력적인 GB당 비용 비율로 엔터프라이즈 성능을 제공합니다.
iDRAC 10의 스토리지 섹션은 R7725xd에 설치된 모든 물리적 디스크에 대한 완전한 개요를 제공합니다. 요약 패널은 연결된 모든 드라이브의 높은 수준의 개수를 표시하고, 드라이브 상태를 보여주는 시각적 파이 차트가 함께 제공됩니다. 이 구성에서는 24개의 NVMe SSD가 활성 상태이며 준비 상태로 보고되고 있으며, 시스템에는 전면 NVMe 뱅크와 별도로 두 개의 추가 부팅 장치가 있습니다.
오른쪽의 디스크 요약 패널은 이를 물리적 디스크와 관련 가상 디스크로 나눕니다. R7725xd는 기존 RAID 컨트롤러 없이 직접 NVMe 아키텍처를 사용하므로 모든 드라이브는 비 RAID로 보고되고 개별적으로 주소 지정 가능하여 대규모 NVMe 풀 및 SDS 플랫폼을 위한 시스템 설계와 일치합니다.
상태 요약 아래에는 최근 기록된 스토리지 이벤트 영역에 각 PCIe SSD의 삽입 로그가 베이 및 슬롯별로 구성되어 나열됩니다. 이 기록은 모든 드라이브 베이에서 올바르게 감지되었음을 확인하고 시팅, 케이블링 또는 핫스왑 활동과 관련된 문제를 식별하는 데 도움이 됩니다. 대규모 배포의 경우 이러한 로그는 드라이브 프로비저닝을 추적하거나 예상대로 용량이 채워졌는지 확인하는 데 유용합니다.
마지막 스크린샷은 iDRAC10 내의 상세 NVMe 장치 보기를 보여줍니다. 시스템에 설치된 각 NVMe 드라이브는 상태, 용량 및 베이 위치와 함께 나열됩니다. 개별 드라이브를 선택하면 해당 특성에 대한 전체 분석이 표시됩니다.
이 예에서 드라이브 정보 패널은 전체 모델 문자열, 장치 프로토콜, 폼 팩터 및 협상된 PCIe 설정을 표시합니다. NVMe 장치는 32GT/s 링크 속도로 x4 연결로 실행되어 드라이브가 시스템의 PCIe Gen5 백플레인에서 전체 대역폭으로 작동함을 확인합니다. 정보 섹션은 또한 내구성 백분율, 사용 가능한 예비 상태 및 프로토콜 유형을 보고하여 관리자가 드라이브 상태 및 수명 주기 기대치를 모니터링하는 데 도움이 됩니다.
이러한 세분화된 드라이브 보고는 링크 폭, 협상된 속도 및 미디어 상태가 워크로드 동작 및 스토리지 성능에 직접적인 영향을 미치는 고밀도 NVMe 구성에서 유용합니다.
전반적으로 iDRAC 10 인터페이스는 R7725xd의 NVMe 스토리지 아키텍처에 대한 명확하고 하드웨어 중심적인 보기를 제공하여 링크 상태, 드라이브 상태 및 시스템 무결성을 한눈에 쉽게 확인할 수 있습니다.
Dell PowerEdge R7725xd 성능
테스트 전에 시스템은 균형 잡히면서도 고성능 로드아웃으로 구성되었습니다. 이 시스템에는 64개의 고주파 코어를 갖춘 두 개의 AMD EPYC 9575F 프로세서가 장착되어 있으며, 6400MT/s로 작동하는 24개의 32GB DDR5 DIMM과 쌍을 이룹니다. 스토리지의 경우 섀시에는 24개의 15.36TB Micron 9550 PRO U.2 NVMe SSD가 완전히 장착되어 있으며, 각 SSD는 전용 PCIe Gen5 x4 링크를 통해 연결됩니다. 이를 통해 총 원시 용량은 368.64TB가 되며, Micron 9550 PRO 드라이브는 최대 14,000MB/s의 순차 읽기 속도와 최대 10,000MB/s의 순차 쓰기 속도를 제공합니다. 네트워킹은 4개의 Broadcom BCM57608 어댑터가 처리하여 총 8개의 200Gb 포트를 제공하며, 추가 10기가비트 포트 2개를 제공하는 BCM57412 OCP NIC도 있습니다.
테스트 시스템 사양
- CPU: 2x AMD EPYC 9575F 64코어 고주파 프로세서
- 메모리: 24x 32GB DDR5 @ 6400MT/s
- 스토리지: 24x 15.36TB Micron 9550 PRO U.2 드라이브(각각 PCIe Gen5 x4 레인 4개로 연결); 현재 최대 128TB 드라이브 지원, 향후 더 높은 용량 출시 예정
- 네트워크: 4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- 스위치: Dell PowerSwitch Z9664
FIO 성능 벤치마크
PowerEdge R7725xd의 스토리지 성능을 측정하기 위해 업계 표준 지표와 FIO 도구를 사용했습니다. 이 섹션에서는 다음 FIO 벤치마크에 중점을 둡니다.
- 랜덤 4K – 1M
- 순차 4K – 1M
FIO – 로컬 – 대역폭
Dell PowerEdge R7725xd 내부의 24개 PCIe Gen5 NVMe 드라이브에 로컬로 액세스하여 테스트할 때, 이 시스템은 모든 드라이브가 전체 x4 레인 PCIe Gen5 링크를 사용하여 CPU에 연결된 플랫폼에서 기대할 수 있는 것을 정확히 보여줍니다. 네트워크 계층이 포함되지 않은 상태에서 이는 Dell의 Gen5 스토리지 레이아웃과 AMD EPYC 플랫폼의 PCIe 대역폭이 제한 없이 작동하는 순수한 내부 처리량입니다.
순차 읽기는 4K 블록에서 184GB/s로 시작하여 블록 크기가 증가함에 따라 빠르게 확장됩니다. 512K에서 1M까지 서버는 312~314GB/s의 일관된 속도를 유지하며, 이는 시스템이 24개의 x 4 Gen5 레인을 모두 지속적인 읽기 대역폭으로 집계하는 방법을 잘 보여주는 강력한 지표입니다.
순차 쓰기는 다른 곡선을 따르지만 예상 범위 내에 있습니다. 149GB/s에서 시작하여 중간 100GB/s대로 상승하고 100만에서 182GB/s에 도달합니다. 이는 Micron 9550 PRO SSD의 쓰기 동작과 수많은 독립 장치에 걸친 고병렬 NVMe 쓰기의 오버헤드와 일치합니다.
랜덤 읽기 성능도 또 다른 장점입니다. 이 시스템은 가장 작은 블록 크기에서 거의 300GB/s의 속도를 달성하고, 중간 범위에서 약간 감소한 후, 더 큰 블록 크기에서 200GB/s 후반대 및 300GB/s 초반대로 회복됩니다. 1M에서 랜덤 읽기는 최대 318GB/s에 도달하여 플랫폼이 혼합 작업을 24개 드라이브 전체에 고르게 분산하는 능력을 보여줍니다.
분산된 메타데이터 및 쓰기 할당 작업에 대한 낮은 속도를 보이는 랜덤 쓰기는 광범위한 NVMe 세트에 걸쳐 일반적입니다. 결과는 테스트의 대부분에서 140~160GB/s 범위에 머물고 1M에서는 100GB/s 미만으로 감소합니다.
FIO – 로컬 – IOPS
IOPS 측면을 살펴보면 R7725xd는 강력한 소형 블록 성능을 보여주며, 요청 속도가 수천만 개에 달한 후 더 큰 블록 크기가 워크로드를 대역폭 중심 프로필로 전환합니다.
4K에서 읽기는 4490만 IOPS에 달하고 쓰기는 3630만 IOPS입니다. 랜덤 읽기는 7140만 IOPS에 달하여 시스템이 높은 큐 워크로드를 모든 드라이브에 효율적으로 분산하는 능력을 보여줍니다. 이러한 값은 블록 크기가 증가함에 따라 자연스럽게 감소하지만, 8K, 16K 및 32K 범위에서는 일관된 진행을 보입니다.
16K 및 32K 블록에서는 읽기가 1740만 및 835만 IOPS로 안정되고, 랜덤 읽기는 1650만 및 815만으로 거의 일치합니다. 쓰기는 예상 패턴을 따르며, 더 낮지만 순차 및 랜덤 액세스 패턴 모두에서 안정적으로 유지됩니다.
64K 이상으로 이동하면 테스트가 순수 IOPS에서 더 대역폭 중심 시나리오로 전환됩니다. IOPS는 수백만 개 초반으로 떨어지고 결국 수십만 개로 떨어집니다. 1M 블록 크기에서 읽기 IOPS는 약 300K, 쓰기는 약 174K, 랜덤 작업은 같은 범위에서 완료됩니다.
전반적으로 로컬 IOPS 결과는 시스템이 소형 블록에서 매우 높은 큐 깊이 워크로드를 지속할 수 있는 능력을 명확하게 보여주며, 전송이 증가하고 대역폭이 주요 요인이 될 때 예측 가능한 확장을 보여줍니다.
PEAK:AIO: Dell PowerEdge R7725xd가 이 워크로드에 적합한 이유
PEAK:AIO는 일반적으로 AI 학습, 추론 파이프라인, 금융 모델링 및 실시간 분석을 위해 매우 빠르고 낮은 지연 시간의 대규모 데이터 세트 액세스가 필요한 환경을 위해 설계되었습니다. 이 플랫폼은 집약적인 NVMe 스토리지, 균형 잡힌 PCIe 대역폭 및 확장 가능한 예측 가능한 지연 시간에 강점을 보입니다. 이러한 요구 사항을 충족하려면 기본 하드웨어가 지속적인 처리량을 제공하면서 동시적인 높은 부하에서도 일관되고 반복 가능한 성능을 유지해야 합니다.
여기서 Dell PowerEdge R7725xd는 PEAK:AIO와 자연스럽게 일치합니다. 이 시스템의 아키텍처는 PCIe Gen5 리소스를 최대화하도록 설계되어 24개의 전면 장착 U.2 NVMe 베이의 전체 대역폭을 기존 RAID 컨트롤러에 의존하지 않고 CPU에 직접 노출합니다. 이 레이아웃은 PEAK:AIO에 최신 NVMe 기반 데이터 파이프라인에서 기대하는 병렬성과 지연 시간 프로필을 제공합니다. 시스템 구성은 NVMe SSD를 두 개의 RAID0 그룹으로 분할했습니다.
테스트 시나리오에서는 R7725xd에 연결된 두 개의 클라이언트 시스템을 사용했으며, 각 시스템에는 Broadcom BCM57608 2x 200G NIC가 장착되어 있었습니다. 이를 통해 총 4개의 200G 업링크가 각 클라이언트에 공급되어 R7725xd를 PEAK:AIO 배포판이 프로덕션에서 보는 것과 유사한 현실적인 고성능 구성으로 만들었습니다. 이 수준의 네트워크 대역폭은 NIC 계층에서 병목 현상 없이 NVMe 하위 시스템, PCIe 토폴로지 및 CPU 상호 연결을 완전히 스트레스 테스트할 수 있는 헤드룸을 제공했습니다.
그 결과 PEAK:AIO 워크로드와 효과적으로 일치하는 플랫폼이 탄생했습니다. R7725xd는 집약적인 NVMe 용량, PCIe Gen5 처리량, 병렬성을 위한 듀얼 AMD EPYC 9005 프로세서, 그리고 클라이언트당 수백 기가비트의 다중 클라이언트 데이터 수집을 지원하는 네트워킹 기능을 제공합니다. 이러한 모든 특성은 PEAK:AIO의 성능 기대치를 달성하는 데 기본이 됩니다.
PEAK:AIO – NVMe-oF RDMA – 대역폭
PEAK:AIO를 사용한 PowerEdge R7725xd의 NVMe-oF RDMA 대역폭 결과를 살펴보면, 전반적인 추세는 이 시스템의 PCIe 및 네트워크 대역폭에서 기대하는 것과 정확히 일치합니다. 블록 크기가 증가함에 따라 처리량이 빠르게 증가하여 플랫폼의 실질적인 한계 근처에서 평준화됩니다.
작은 블록 크기에서는 읽기 및 쓰기 모두에서 20GB/s 중반 범위에서 성능이 시작되는데, 이는 4K 및 8K 전송이 처리량 경로보다 IOPS 경로를 훨씬 더 많이 사용하기 때문에 정상입니다. 16K 및 32K 블록으로 들어가면 파이프라인이 열립니다. 읽기는 32K에서 약 154GB/s로 급증하고 160GB/s 범위로 계속 상승하며, 이는 4개의 200Gb/s 링크를 통한 듀얼 클라이언트 설정이 도달할 것으로 예상되는 지점입니다.
랜덤 읽기 성능은 순차 성능과 거의 완벽하게 일치합니다. PEAK:AIO는 명령 큐를 잘 채우므로 랜덤 읽기 대역폭은 순차 읽기 대역폭을 거의 그대로 따라가며, 32K에서 1M까지 약 159~161GB/s로 안정됩니다. 이는 스토리지 스택이 혼합 액세스 패턴 하에서 병목 현상을 일으키지 않으며, R7725xd의 PCIe 토폴로지가 24개의 Gen5 NVMe 드라이브에 걸쳐 부하를 고르게 분산하고 있음을 나타냅니다.
쓰기 성능은 유사한 곡선을 따르지만 읽기보다 약간 낮은 최고치를 기록합니다. 순차 쓰기는 중간 크기 블록에서 140~148GB/s 범위에 머물고, 128K에서는 약 117GB/s로 감소하지만 블록 크기가 증가함에 따라 회복됩니다. 랜덤 쓰기는 다르게 작동하며 약 110~117GB/s로 평준화되는데, 이는 추가 큐 및 CPU 오버헤드를 도입하는 혼합 큐 워크로드의 경우 정상입니다.
이 섹션의 핵심은 R7725xd가 여러 클라이언트가 시스템을 한계까지 몰아붙이는 상황에서도 NVMe-oF를 통해 매우 높은 대역폭을 쉽게 유지할 수 있다는 것입니다. 블록 크기가 32K 이상에 도달하면 서버는 사용 가능한 네트워크 및 스토리지 대역폭을 지속적으로 포화시킵니다. 이것은 PEAK:AIO가 추출하도록 설계된 정확한 유형의 성능이며, 이러한 결과는 실제 조건 하에서 확장하는 플랫폼의 능력에 대한 강력한 검증입니다.
PEAK AIO – NVMe-oF RDMA IOPS
IOPS 측면에서 PowerEdge R7725xd는 강력한 소형 블록 성능을 보여주지만, 초기에는 예상보다 낮은 수치를 관찰했습니다. 이 문제는 향후 개선된 네트워크 드라이버 지원으로 해결될 것으로 예상됩니다. 그럼에도 불구하고 전반적인 확장 추세는 블록 크기가 증가함에 따라 NVMe-oF RDMA가 일반적으로 작동하는 방식과 정확히 일치합니다.
가장 작은 블록 크기에서 시스템은 순차 및 랜덤 워크로드 모두에서 600만 IOPS 이상을 제공할 수 있습니다. 읽기, 쓰기, 랜덤 읽기 및 랜덤 쓰기는 모두 4K 및 8K에서 거의 동일한 범위에 있으며, 프론트엔드 클라이언트, PCIe 인프라 및 NVMe 드라이브 자체에 요청 속도를 따라가는 데 문제가 없음을 나타냅니다.
블록 크기가 증가함에 따라 예상되는 IOPS 감소가 시작됩니다. 32K에서 읽기는 약 470만 IOPS에 도달하고, 쓰기는 약 440만으로 약간 뒤처집니다. 랜덤 쓰기는 여기서 가장 큰 타격을 받아 약 330만 IOPS로 감소하는데, 이는 혼합 액세스 패턴으로 인한 추가 큐 및 CPU 오버헤드와 일치합니다.
대형 블록으로 이동하면 IOPS는 예측 가능한 선형 방식으로 계속 감소합니다. 256K 및 512K 전송에 도달하면 처리량이 주요 지표가 되고 IOPS는 자연스럽게 수십만 개로 떨어집니다. 1M 블록 크기에서 모든 워크로드는 140K-153K IOPS로 수렴되며, 이는 이전 섹션에서 본 대역폭 수치와 일치합니다.
GPUDirect 스토리지 성능
R7725xd에서 수행한 테스트 중 하나는 Magnum IO GPUDirect 스토리지(GDS) 테스트였습니다. GDS는 NVIDIA에서 개발한 기능으로, GPU가 NVMe 드라이브 또는 기타 고속 스토리지 장치에 저장된 데이터에 액세스할 때 CPU를 우회할 수 있도록 합니다. GDS는 데이터를 CPU 및 시스템 메모리를 통해 라우팅하는 대신 GPU와 스토리지 장치 간의 직접 통신을 가능하게 하여 지연 시간을 크게 줄이고 데이터 처리량을 향상시킵니다.
GPUDirect 스토리지 작동 방식
전통적으로 GPU가 NVMe 드라이브에 저장된 데이터를 처리할 때, 데이터는 GPU에 도달하기 전에 먼저 CPU와 시스템 메모리를 통과해야 합니다. 이 과정은 CPU가 중간자 역할을 하여 지연 시간을 추가하고 귀중한 시스템 리소스를 소비하기 때문에 병목 현상을 유발합니다. GPUDirect 스토리지은 GPU가 PCIe 버스를 통해 스토리지 장치에서 직접 데이터에 액세스할 수 있도록 하여 이러한 비효율성을 제거합니다. 이 직접 경로는 데이터 이동 오버헤드를 줄여 더 빠르고 효율적인 데이터 전송을 가능하게 합니다.
특히 딥 러닝을 포함하는 AI 워크로드는 데이터 집약적입니다. 대규모 신경망을 학습하려면 테라바이트의 데이터를 처리해야 하며, 데이터 전송의 지연은 GPU 활용 부족과 학습 시간 증가로 이어질 수 있습니다. GPUDirect 스토리지은 데이터가 가능한 한 빨리 GPU에 전달되도록 하여 유휴 시간을 최소화하고 계산 효율성을 극대화함으로써 이러한 문제를 해결합니다.
또한 GDS는 비디오 처리, 자연어 처리 또는 실시간 추론과 같이 대규모 데이터 세트를 스트리밍하는 워크로드에 특히 유용합니다. CPU에 대한 의존도를 줄임으로써 GDS는 데이터 이동을 가속화하고 CPU 리소스를 다른 작업에 할당하여 전반적인 시스템 성능을 더욱 향상시킵니다.
순수 대역폭 외에도 NVMe-oF(TCP/RDMA)를 사용하는 GPUDirect는 초저지연 I/O를 제공합니다. 이를 통해 GPU는 데이터 부족에 시달리지 않아 실시간 AI 추론, 분석 파이프라인 및 비디오 재생에 이상적인 시스템입니다.
GDSIO 읽기 순차
단일 클라이언트를 사용하여 GDSIO와 함께 PEAK:AIO를 검사할 때, 읽기 처리량은 블록 크기와 스레드 수가 모두 증가함에 따라 명확한 확장 패턴을 보여줍니다. 이 단일 클라이언트는 두 개의 400G 링크를 통해 연결되어 총 잠재력을 90GB/s로 제한했습니다.
가장 작은 블록 크기와 낮은 스레드 수에서는 성능이 보통이며, 4K 읽기는 단일 스레드에서 약 189MiB/s로 시작합니다. 스레드 병렬성을 즉시 증가시키면 시스템이 즉시 응답하여 4개의 스레드에서 691MiB/s를 달성하고 더 큰 블록으로 이동함에 따라 멀티 GiB/s 범위로 진입합니다.
중간 범위 블록 크기는 스레드 수에 가장 민감하게 반응합니다. 32K에서 처리량은 단일 스레드에서 1.3GiB/s에서 64개의 스레드로 거의 20GiB/s로 증가하며, 그 이후에는 약간의 감소만 있습니다. 64K 및 128K에서도 유사한 패턴이 나타나며, 시스템은 낮은 병렬성에서 낮은 단일 자릿수 GiB/s에서 워크로드가 확장됨에 따라 30GiB/s 이상으로 전환됩니다.
더 큰 블록 크기에 도달하면 시스템이 단일 클라이언트에 대한 성능 상한선에 가까워짐에 따라 처리량이 평준화되기 시작합니다. 1MiB에서 성능은 단일 스레드에서 11GiB/s에서 높은 스레드 수에서 약 88GiB/s로 증가합니다. 5MiB 및 10MiB 전송은 동일한 플래토를 보여주며, 테스트가 64, 128 또는 256개의 스레드에서 실행되는지에 관계없이 약 89~90GiB/s에서 최고치를 기록합니다.
GDSIO 쓰기 순차
쓰기 측면에서 확장 동작은 읽기와 유사한 패턴을 따르지만, 순차 쓰기 워크로드의 경우 예상대로 대부분의 블록 크기에서 성능이 약간 낮습니다. 가장 작은 블록 크기에서 처리량은 4K에서 단일 스레드에 대해 165MiB/s로 시작하여 병렬성이 증가함에 따라 꾸준히 증가합니다. 4개의 스레드에서는 619MiB/s를 약간 넘어서고, 8개의 스레드로 이동하면 1GiB/s를 넘어섭니다.
중간 범위 블록 크기는 스레드 수가 증가함에 따라 더 강한 이득을 보여줍니다. 32K에서 처리량은 1GiB/s 미만에서 시작하여 더 높은 스레드 수준에서 21GiB/s 이상으로 확장됩니다. 64K 및 128K 범위는 이러한 추세를 이어가며, 낮은 단일 자릿수 GiB/s에서 중간 30GiB/s 및 50GiB/s로 이동하며 워크로드가 더 병렬화됩니다.
더 큰 전송은 시스템이 자연스러운 쓰기 처리량 상한선에 도달하는 시점입니다. 1MiB에서 성능은 단일 스레드에서 13.3GiB/s에서 높은 스레드 수에서 90GiB/s 미만으로 증가합니다. 5MiB 및 10MiB 테스트는 유사한 패턴을 따르며, 시스템이 64, 128 또는 256개의 스레드에서 실행되는지에 관계없이 결과는 약 90GiB/s에서 최고치를 기록합니다.
Gen5 시대의 성능 재정의
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
"기술을 사용하여 지능형 세계를 구축하십시오" 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!
담당자: Ms. Sandy Yang
전화 번호: 13426366826



