홈 사건

2U에서 300 GB/s: 델 파워엣지 R7725xd는 스토리지 성능에 대한 기대치를 재설정합니다

모든 제품

랙 스토리지 서버
(165)

화웨이 퓨젼 서버
(31)

델 파워에지 서버
(59)

H3C 서버
(30)

데이터콤 스위치
(97)

WLAN 장치
(21)

현명한 무선 라우터
(10)

하드 드라이브 HDD
(24)

내부 하드 드라이브 SSD
(16)

지포스 그래픽 카드
(27)

인텔 CPU 프로세서
(20)

서버 메모리 램
(6)

재공급된 스토리지 서버
(6)

SFP 송수신기 모듈
(4)

섬유 채널 스위치
(42)

인증

고객 검토

베이징 첸싱 지에통 테크 주식회사의 영업 사원은 매우 전문적이고 참을성 있습니다. 그들은 빨리 인용을 제공할 수 있습니다. 제품의 품질과 패키징은 또한 매우 좋습니다. 우리의 협력은 매우 매끄럽습니다.

—— 《Festfing DV》LLC

내가 긴급히 인텔 CPU와 토시바 SSD를 찾고 있었늘 때, 베이징 첸싱 지에통 기술 주식회사로부터의 샌디는 나에게 많은 도움을 주었고, 나에게 빨리 필요로 한 제품을 가져다 주었습니다. 나는 정말로 그녀를 압니다.

—— 고양이 엔

베이징 첸싱 지에통 기술 주식회사의 샌디는 내가 서버를 구입할 때 제시간에 나에게 구성 오류를 상기시킬 수 있는 매우 주의깊은 판매원을 있습니다. 엔지니어들은 또한 매우 전문적이고, 빠르게 테스팅 프로세스를 완료할 수 있습니다.

—— 스트렐킨 미하일 블라드미로비치

베이징 첸싱지에통과의 협업에 매우 만족합니다. 제품 품질이 훌륭하고, 배송도 항상 제 시간에 이루어집니다. 영업팀은 전문적이고, 인내심이 많으며, 모든 질문에 매우 친절하게 답변해 줍니다. 그들의 지원에 진심으로 감사드리며, 장기적인 파트너십을 기대합니다. 강력 추천합니다!

—— Ahmad Navid

품질: 제 공급업체와의 좋은 경험. 미크로틱 RB3011은 이미 사용되었지만 매우 좋은 상태로 모든 것이 완벽하게 작동합니다. 통신은 빠르고 원활했습니다.그리고 제 모든 걱정은 빠르게 해결되었습니다.매우 신뢰할 수 있는 공급자

—— 제란 콜레시오

제가 지금 온라인 채팅 해요

2U에서 300 GB/s: 델 파워엣지 R7725xd는 스토리지 성능에 대한 기대치를 재설정합니다

March 12, 2026

일부 서버는 기존 기능을 향상시키는 데 그치지만, 다른 서버는 가능한 것을 완전히 재정의합니다. Dell PowerEdge R7725xd는 후자에 속합니다. 최근 테스트에서 24개의 Micron 9550 PRO PCIe Gen5 NVMe SSD와 4개의 2x 200GbE 네트워크 인터페이스 카드(NIC)를 장착한 이 2U 서버는 우리가 평가한 어떤 시스템보다 높은 원시 스토리지 처리량을 달성했습니다. 내부적으로 이 플랫폼은 NVMe 스토리지 풀에서 300GB/s 이상의 처리량을 유지했으며, 네트워크를 통해 표준 RDMA 기술을 사용하여 160GB/s를 제공했습니다. 이 모든 것이 불필요한 복잡성을 추가하지 않고 이루어졌습니다.

Dell PowerEdge R7725xd

이것은 단순한 빠른 스토리지 서버가 아니라 데이터 집약적 컴퓨팅의 아키텍처를 변화시키는 시스템입니다. 오늘날의 AI 학습 및 추론 파이프라인은 GPU 처리 능력보다는 데이터가 스테이징, 스트리밍, 셔플링 및 체크포인트되는 속도에 의해 제한되는 경우가 많습니다. 스토리지 시스템이 데이터 요구 사항을 따라가지 못하면 고성능 GPU 노드는 유휴 상태로 남게 됩니다. 이러한 제약을 극복하기 위해 팀은 종종 캐시, 과잉 프로비저닝된 하드웨어 및 복잡한 계층화 전략에 의존하여 가속기가 투자에 대한 정당성을 부여할 만큼 빠르게 데이터를 수신하도록 합니다.

Dell PowerEdge R7725xd는 이 병목 현상을 근본적으로 해결합니다. 이 서버는 24베이 U.2 백플레인을 중심으로 구축되며, 각 드라이브는 AMD EPYC CPU 복합체에 직접 연결되는 전용 PCIe Gen5 x4 링크를 갖습니다. 팬아웃 설계로 인한 대역폭 제한이 없으며, 동시성을 줄이기 위한 미드플레인 익스팬더도 사용되지 않습니다. 하드웨어가 리소스 경합 없이 처리량을 집계하도록 설계되었기 때문에 성능이 원활하게 확장됩니다. 일반적인 2소켓 구성에서는 CPU가 4개의 XGMI 연결로 연결되어 소켓 간 통신을 수행합니다. R7725xd에서는 이러한 연결 중 하나를 재활용하여 CPU당 추가 16개의 PCIe Gen5 레인을 추가하여 서버에 총 160개의 PCIe Gen5 레인을 제공합니다. 이 중 96개는 전면 SSD 베이에 할당되고 64개는 4개의 후면 PCIe 슬롯에 예약됩니다. 지속적인 쓰기 워크로드와 높은 내구성을 위해 설계된 Micron의 9550 PRO SSD와 함께 사용하면 이 시스템은 체크포인트 집약적이고 지속적인 스트리밍 워크로드를 지원할 수 있는 고처리량 데이터 엔진이 됩니다.

이 아키텍처 위에 PEAK:AIO를 구현하여 병렬 제출 경로를 활용하고 동시성이 증가함에 따라 효율성을 유지했습니다. 그 결과는 인상적인 최대 성능뿐만 아니라 높은 부하에서도 일관된 지속 성능을 제공했습니다. 이 플랫폼은 사전 처리, 학습 또는 데이터 변환을 위한 로컬 실행 노드로 기능하거나 네트워크를 통해 여러 GPU 시스템에 고대역폭 스토리지를 제공할 수 있습니다. 한계를 뛰어넘고 싶은 사람들에게는 두 가지 작업을 동시에 처리할 수도 있습니다.

주요 내용

단일 노드에서 전례 없는 처리량: R7725xd는 300GB/s 이상의 내부 대역폭과 NVMe-oF RDMA를 통한 160GB/s를 유지하여 2U 섀시 내에서 다중 노드 스토리지 클러스터에 필적합니다.
진정한 Gen5 아키텍처, 스위치 없음, 팬아웃 없음: 모든 24개의 Micron 9550 PRO SSD는 CPU 복합체에서 직접 전용 x4 PCIe Gen5 레인을 수신하여 경합 없이 라인 속도 확장을 가능하게 합니다.
AMD EPYC 9005 시리즈 기반: 듀얼 AMD EPYC 9575F 프로세서는 지속적인 고동시성 I/O에 필요한 레인 수, 메모리 대역폭 및 NUMA 토폴로지를 제공합니다.
AI, 분석 및 체크포인트 집약적 워크로드용으로 설계됨: 이 시스템은 최신 GPU 파이프라인을 지연시키는 I/O 병목 현상을 제거하여 지속적인 고대역폭 데이터 전달을 가능하게 합니다.
PEAK:AIO, 전체 병렬성 잠금 해제: PEAK:AIO의 소프트웨어 스택은 부하 시 큐 구조를 포화 상태로 유지하여 매력적인 GB당 비용 비율로 엔터프라이즈 성능을 제공합니다.

NVMe 처리량을 위한 전용 설계

최신 세대 서버 중에서 Dell은 스토리지 집약적인 서버 설정에 PCIe 스위치를 통합하는 것을 지양해 왔습니다. PowerEdge R770 및 R7725와 같은 모델은 최대 16개의 SSD 구성을 지원하는 PCIe Gen5 x4 베이를 특징으로 하며, 더 큰 스토리지 백플레인 설정을 사용할 때는 x2 베이로 전환합니다. PowerEdge R760과 같은 이전 세대의 서버는 24베이 NVMe 구성에 PCIe 스위치를 포함했습니다. 빌드를 간소화하고 PCIe 스위스로 인한 복잡성을 제거하기 위해 최신 서버는 스토리지 집약적인 구성에서 PCIe 레인 수를 줄이는 접근 방식을 채택했습니다. 그러나 R7725xd의 등장으로 상황이 바뀌었습니다.

표준 R7725와 R7725xd의 주요 차이점은 플랫폼이 PCIe 루트 복합체 리소스를 할당하는 방식에 있습니다. 기본 R7725는 PCIe 레인을 스토리지, GPU 확장 및 범용 I/O에 분산합니다. 'xd' 변형은 NVMe 하위 시스템을 PCIe 대역폭의 주요 소비자로 만들기 위해 이 리소스 예산을 재할당합니다. 24개의 U.2 베이는 CPU의 PCIe Gen5 루트에 직접 연결되며, 각 SSD는 PCIe 스위치 또는 리타이머 트리를 통해 제공되는 공유 업링크 대신 자체 x4 엔드포인트를 갖습니다. 이를 통해 모든 드라이브는 메모리 컨트롤러로 돌아가는 독립적인 큐 구조와 독립적인 DMA 경로를 갖게 됩니다.

백플레인 및 라이저 토폴로지는 NVMe 성능에 대한 이러한 초점을 반영합니다. Dell은 NVMe 커넥터와 PCIe 슬롯을 두 AMD EPYC 소켓에 분산하여 각 프로세서가 드라이브 세트의 일부를 직접 제어할 수 있도록 합니다. 실제로는 각 드라이브에 로컬 지연 시간 특성과 전체 읽기/쓰기 동시성을 갖는 두 개의 대칭 NVMe 도메인이 생성됩니다. 4개의 Broadcom 듀얼 포트 200GbE NIC를 추가 카드로 설치했을 때, 슬롯 배치는 각 NIC가 해당 NVMe 그룹과 정렬된 PCIe 도메인에 위치하도록 했습니다. NVMe-over-RDMA 하에서는 네트워크 트래픽이 관련 드라이브 I/O를 처리하는 소켓에 로컬로 유지되어 일반적으로 높은 부하에서 지연 시간을 추가하고 대역폭을 소비하는 소켓 간 Infinity Fabric 홉을 피했습니다.

열 성능 또한 지속적인 처리량을 지원합니다. U.2는 각 장치에 대한 정의된 공기 흐름 채널과 예측 가능한 방열판 표면적을 제공하기 때문에 집약적인 Gen5 구성에서 여전히 뛰어난 선택입니다. R7725xd의 고정압 팬 모듈과 섀시 덕트는 24개 베이 전체에 걸쳐 꾸준한 공기 흐름을 유지하여 전체 드라이브 쓰기 워크로드가 스로틀링 없이 지속적으로 실행될 수 있도록 합니다. 기계적 설계는 전기적 아키텍처를 보완합니다. 각 드라이브는 부하 시 24개의 동시 Gen5 장치를 냉각하도록 설계되었기 때문에 전체 속도 성능을 유지할 수 있습니다.

루트 복합체 정렬, 일관된 비균일 메모리 액세스(NUMA) 레인 레이아웃, 소켓 인식 NIC 배치 및 열적으로 안정적인 U.2 패키징의 이러한 조합을 통해 시스템은 확장 가능한 라인 속도 I/O를 달성할 수 있습니다. 이 아키텍처는 병목 현상을 제거하고 성능 잠재력을 극대화합니다.

Dell PowerEdge R7725xd iDRAC 10 개요

테스트한 다른 17세대 플랫폼과 마찬가지로 이 R7725xd 세대는 원격 관리, 상태 모니터링 및 대역 외 제어를 위한 중앙 허브 역할을 하는 Dell의 새로운 iDRAC 10 플랫폼을 특징으로 합니다. 대시보드 보기는 전체 시스템 상태, 스토리지 상태 및 최근 활동에 대한 즉각적인 개요를 제공합니다. 테스트 장치의 경우 시스템 및 스토리지 상태 보고서에 녹색 상태가 표시되어 서버가 예상대로 작동함을 확인합니다. 모델, 호스트 이름, BIOS 버전, iDRAC 펌웨어 수준, IP 주소 및 라이선스 정보를 포함한 주요 시스템 세부 정보가 인터페이스 오른쪽에 표시됩니다.

대시보드에는 완료, 보류 중 및 진행 중인 작업을 보여주는 작업 요약 패널도 포함되어 있습니다. 그 아래에는 최근 이벤트 로그에 섀시 침입 경고 및 전원 공급 장치 메시지가 기록되어 더 깊은 메뉴로 이동할 필요 없이 하드웨어 상태 변경 사항을 빠르게 확인할 수 있습니다. 가상 콘솔 패널은 오른쪽 하단 모서리에 있으며 전체 원격 KVM 제어를 가능하게 합니다.

iDRAC 10의 스토리지 섹션은 R7725xd에 설치된 모든 물리적 디스크에 대한 완전한 개요를 제공합니다. 요약 패널은 연결된 모든 드라이브의 높은 수준의 개수를 표시하고, 드라이브 상태를 보여주는 시각적 파이 차트가 함께 제공됩니다. 이 구성에서는 24개의 NVMe SSD가 활성 상태이며 준비 상태로 보고되고 있으며, 시스템에는 전면 NVMe 뱅크와 별도로 두 개의 추가 부팅 장치가 있습니다.

오른쪽의 디스크 요약 패널은 이를 물리적 디스크와 관련 가상 디스크로 나눕니다. R7725xd는 기존 RAID 컨트롤러 없이 직접 NVMe 아키텍처를 사용하므로 모든 드라이브는 비 RAID로 보고되고 개별적으로 주소 지정 가능하여 대규모 NVMe 풀 및 SDS 플랫폼을 위한 시스템 설계와 일치합니다.

상태 요약 아래에는 최근 기록된 스토리지 이벤트 영역에 각 PCIe SSD의 삽입 로그가 베이 및 슬롯별로 구성되어 나열됩니다. 이 기록은 모든 드라이브 베이에서 올바르게 감지되었음을 확인하고 시팅, 케이블링 또는 핫스왑 활동과 관련된 문제를 식별하는 데 도움이 됩니다. 대규모 배포의 경우 이러한 로그는 드라이브 프로비저닝을 추적하거나 예상대로 용량이 채워졌는지 확인하는 데 유용합니다.

마지막 스크린샷은 iDRAC10 내의 상세 NVMe 장치 보기를 보여줍니다. 시스템에 설치된 각 NVMe 드라이브는 상태, 용량 및 베이 위치와 함께 나열됩니다. 개별 드라이브를 선택하면 해당 특성에 대한 전체 분석이 표시됩니다.

이 예에서 드라이브 정보 패널은 전체 모델 문자열, 장치 프로토콜, 폼 팩터 및 협상된 PCIe 설정을 표시합니다. NVMe 장치는 32GT/s 링크 속도로 x4 연결로 실행되어 드라이브가 시스템의 PCIe Gen5 백플레인에서 전체 대역폭으로 작동함을 확인합니다. 정보 섹션은 또한 내구성 백분율, 사용 가능한 예비 상태 및 프로토콜 유형을 보고하여 관리자가 드라이브 상태 및 수명 주기 기대치를 모니터링하는 데 도움이 됩니다.

이러한 세분화된 드라이브 보고는 링크 폭, 협상된 속도 및 미디어 상태가 워크로드 동작 및 스토리지 성능에 직접적인 영향을 미치는 고밀도 NVMe 구성에서 유용합니다.

전반적으로 iDRAC 10 인터페이스는 R7725xd의 NVMe 스토리지 아키텍처에 대한 명확하고 하드웨어 중심적인 보기를 제공하여 링크 상태, 드라이브 상태 및 시스템 무결성을 한눈에 쉽게 확인할 수 있습니다.

Dell PowerEdge R7725xd 성능

테스트 전에 시스템은 균형 잡히면서도 고성능 로드아웃으로 구성되었습니다. 이 시스템에는 64개의 고주파 코어를 갖춘 두 개의 AMD EPYC 9575F 프로세서가 장착되어 있으며, 6400MT/s로 작동하는 24개의 32GB DDR5 DIMM과 쌍을 이룹니다. 스토리지의 경우 섀시에는 24개의 15.36TB Micron 9550 PRO U.2 NVMe SSD가 완전히 장착되어 있으며, 각 SSD는 전용 PCIe Gen5 x4 링크를 통해 연결됩니다. 이를 통해 총 원시 용량은 368.64TB가 되며, Micron 9550 PRO 드라이브는 최대 14,000MB/s의 순차 읽기 속도와 최대 10,000MB/s의 순차 쓰기 속도를 제공합니다. 네트워킹은 4개의 Broadcom BCM57608 어댑터가 처리하여 총 8개의 200Gb 포트를 제공하며, 추가 10기가비트 포트 2개를 제공하는 BCM57412 OCP NIC도 있습니다.

테스트 시스템 사양

CPU: 2x AMD EPYC 9575F 64코어 고주파 프로세서
메모리: 24x 32GB DDR5 @ 6400MT/s
스토리지: 24x 15.36TB Micron 9550 PRO U.2 드라이브(각각 PCIe Gen5 x4 레인 4개로 연결); 현재 최대 128TB 드라이브 지원, 향후 더 높은 용량 출시 예정
네트워크: 4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
스위치: Dell PowerSwitch Z9664

FIO 성능 벤치마크

PowerEdge R7725xd의 스토리지 성능을 측정하기 위해 업계 표준 지표와 FIO 도구를 사용했습니다. 이 섹션에서는 다음 FIO 벤치마크에 중점을 둡니다.

랜덤 4K – 1M
순차 4K – 1M

FIO – 로컬 – 대역폭

Dell PowerEdge R7725xd 내부의 24개 PCIe Gen5 NVMe 드라이브에 로컬로 액세스하여 테스트할 때, 이 시스템은 모든 드라이브가 전체 x4 레인 PCIe Gen5 링크를 사용하여 CPU에 연결된 플랫폼에서 기대할 수 있는 것을 정확히 보여줍니다. 네트워크 계층이 포함되지 않은 상태에서 이는 Dell의 Gen5 스토리지 레이아웃과 AMD EPYC 플랫폼의 PCIe 대역폭이 제한 없이 작동하는 순수한 내부 처리량입니다.

순차 읽기는 4K 블록에서 184GB/s로 시작하여 블록 크기가 증가함에 따라 빠르게 확장됩니다. 512K에서 1M까지 서버는 312~314GB/s의 일관된 속도를 유지하며, 이는 시스템이 24개의 x 4 Gen5 레인을 모두 지속적인 읽기 대역폭으로 집계하는 방법을 잘 보여주는 강력한 지표입니다.

순차 쓰기는 다른 곡선을 따르지만 예상 범위 내에 있습니다. 149GB/s에서 시작하여 중간 100GB/s대로 상승하고 100만에서 182GB/s에 도달합니다. 이는 Micron 9550 PRO SSD의 쓰기 동작과 수많은 독립 장치에 걸친 고병렬 NVMe 쓰기의 오버헤드와 일치합니다.

랜덤 읽기 성능도 또 다른 장점입니다. 이 시스템은 가장 작은 블록 크기에서 거의 300GB/s의 속도를 달성하고, 중간 범위에서 약간 감소한 후, 더 큰 블록 크기에서 200GB/s 후반대 및 300GB/s 초반대로 회복됩니다. 1M에서 랜덤 읽기는 최대 318GB/s에 도달하여 플랫폼이 혼합 작업을 24개 드라이브 전체에 고르게 분산하는 능력을 보여줍니다.

분산된 메타데이터 및 쓰기 할당 작업에 대한 낮은 속도를 보이는 랜덤 쓰기는 광범위한 NVMe 세트에 걸쳐 일반적입니다. 결과는 테스트의 대부분에서 140~160GB/s 범위에 머물고 1M에서는 100GB/s 미만으로 감소합니다.

FIO – 로컬 – IOPS

IOPS 측면을 살펴보면 R7725xd는 강력한 소형 블록 성능을 보여주며, 요청 속도가 수천만 개에 달한 후 더 큰 블록 크기가 워크로드를 대역폭 중심 프로필로 전환합니다.

4K에서 읽기는 4490만 IOPS에 달하고 쓰기는 3630만 IOPS입니다. 랜덤 읽기는 7140만 IOPS에 달하여 시스템이 높은 큐 워크로드를 모든 드라이브에 효율적으로 분산하는 능력을 보여줍니다. 이러한 값은 블록 크기가 증가함에 따라 자연스럽게 감소하지만, 8K, 16K 및 32K 범위에서는 일관된 진행을 보입니다.

16K 및 32K 블록에서는 읽기가 1740만 및 835만 IOPS로 안정되고, 랜덤 읽기는 1650만 및 815만으로 거의 일치합니다. 쓰기는 예상 패턴을 따르며, 더 낮지만 순차 및 랜덤 액세스 패턴 모두에서 안정적으로 유지됩니다.

64K 이상으로 이동하면 테스트가 순수 IOPS에서 더 대역폭 중심 시나리오로 전환됩니다. IOPS는 수백만 개 초반으로 떨어지고 결국 수십만 개로 떨어집니다. 1M 블록 크기에서 읽기 IOPS는 약 300K, 쓰기는 약 174K, 랜덤 작업은 같은 범위에서 완료됩니다.

전반적으로 로컬 IOPS 결과는 시스템이 소형 블록에서 매우 높은 큐 깊이 워크로드를 지속할 수 있는 능력을 명확하게 보여주며, 전송이 증가하고 대역폭이 주요 요인이 될 때 예측 가능한 확장을 보여줍니다.

PEAK:AIO: Dell PowerEdge R7725xd가 이 워크로드에 적합한 이유

PEAK:AIO는 일반적으로 AI 학습, 추론 파이프라인, 금융 모델링 및 실시간 분석을 위해 매우 빠르고 낮은 지연 시간의 대규모 데이터 세트 액세스가 필요한 환경을 위해 설계되었습니다. 이 플랫폼은 집약적인 NVMe 스토리지, 균형 잡힌 PCIe 대역폭 및 확장 가능한 예측 가능한 지연 시간에 강점을 보입니다. 이러한 요구 사항을 충족하려면 기본 하드웨어가 지속적인 처리량을 제공하면서 동시적인 높은 부하에서도 일관되고 반복 가능한 성능을 유지해야 합니다.

여기서 Dell PowerEdge R7725xd는 PEAK:AIO와 자연스럽게 일치합니다. 이 시스템의 아키텍처는 PCIe Gen5 리소스를 최대화하도록 설계되어 24개의 전면 장착 U.2 NVMe 베이의 전체 대역폭을 기존 RAID 컨트롤러에 의존하지 않고 CPU에 직접 노출합니다. 이 레이아웃은 PEAK:AIO에 최신 NVMe 기반 데이터 파이프라인에서 기대하는 병렬성과 지연 시간 프로필을 제공합니다. 시스템 구성은 NVMe SSD를 두 개의 RAID0 그룹으로 분할했습니다.

테스트 시나리오에서는 R7725xd에 연결된 두 개의 클라이언트 시스템을 사용했으며, 각 시스템에는 Broadcom BCM57608 2x 200G NIC가 장착되어 있었습니다. 이를 통해 총 4개의 200G 업링크가 각 클라이언트에 공급되어 R7725xd를 PEAK:AIO 배포판이 프로덕션에서 보는 것과 유사한 현실적인 고성능 구성으로 만들었습니다. 이 수준의 네트워크 대역폭은 NIC 계층에서 병목 현상 없이 NVMe 하위 시스템, PCIe 토폴로지 및 CPU 상호 연결을 완전히 스트레스 테스트할 수 있는 헤드룸을 제공했습니다.

그 결과 PEAK:AIO 워크로드와 효과적으로 일치하는 플랫폼이 탄생했습니다. R7725xd는 집약적인 NVMe 용량, PCIe Gen5 처리량, 병렬성을 위한 듀얼 AMD EPYC 9005 프로세서, 그리고 클라이언트당 수백 기가비트의 다중 클라이언트 데이터 수집을 지원하는 네트워킹 기능을 제공합니다. 이러한 모든 특성은 PEAK:AIO의 성능 기대치를 달성하는 데 기본이 됩니다.

PEAK:AIO – NVMe-oF RDMA – 대역폭

PEAK:AIO를 사용한 PowerEdge R7725xd의 NVMe-oF RDMA 대역폭 결과를 살펴보면, 전반적인 추세는 이 시스템의 PCIe 및 네트워크 대역폭에서 기대하는 것과 정확히 일치합니다. 블록 크기가 증가함에 따라 처리량이 빠르게 증가하여 플랫폼의 실질적인 한계 근처에서 평준화됩니다.

작은 블록 크기에서는 읽기 및 쓰기 모두에서 20GB/s 중반 범위에서 성능이 시작되는데, 이는 4K 및 8K 전송이 처리량 경로보다 IOPS 경로를 훨씬 더 많이 사용하기 때문에 정상입니다. 16K 및 32K 블록으로 들어가면 파이프라인이 열립니다. 읽기는 32K에서 약 154GB/s로 급증하고 160GB/s 범위로 계속 상승하며, 이는 4개의 200Gb/s 링크를 통한 듀얼 클라이언트 설정이 도달할 것으로 예상되는 지점입니다.

랜덤 읽기 성능은 순차 성능과 거의 완벽하게 일치합니다. PEAK:AIO는 명령 큐를 잘 채우므로 랜덤 읽기 대역폭은 순차 읽기 대역폭을 거의 그대로 따라가며, 32K에서 1M까지 약 159~161GB/s로 안정됩니다. 이는 스토리지 스택이 혼합 액세스 패턴 하에서 병목 현상을 일으키지 않으며, R7725xd의 PCIe 토폴로지가 24개의 Gen5 NVMe 드라이브에 걸쳐 부하를 고르게 분산하고 있음을 나타냅니다.

쓰기 성능은 유사한 곡선을 따르지만 읽기보다 약간 낮은 최고치를 기록합니다. 순차 쓰기는 중간 크기 블록에서 140~148GB/s 범위에 머물고, 128K에서는 약 117GB/s로 감소하지만 블록 크기가 증가함에 따라 회복됩니다. 랜덤 쓰기는 다르게 작동하며 약 110~117GB/s로 평준화되는데, 이는 추가 큐 및 CPU 오버헤드를 도입하는 혼합 큐 워크로드의 경우 정상입니다.

이 섹션의 핵심은 R7725xd가 여러 클라이언트가 시스템을 한계까지 몰아붙이는 상황에서도 NVMe-oF를 통해 매우 높은 대역폭을 쉽게 유지할 수 있다는 것입니다. 블록 크기가 32K 이상에 도달하면 서버는 사용 가능한 네트워크 및 스토리지 대역폭을 지속적으로 포화시킵니다. 이것은 PEAK:AIO가 추출하도록 설계된 정확한 유형의 성능이며, 이러한 결과는 실제 조건 하에서 확장하는 플랫폼의 능력에 대한 강력한 검증입니다.

PEAK AIO – NVMe-oF RDMA IOPS

IOPS 측면에서 PowerEdge R7725xd는 강력한 소형 블록 성능을 보여주지만, 초기에는 예상보다 낮은 수치를 관찰했습니다. 이 문제는 향후 개선된 네트워크 드라이버 지원으로 해결될 것으로 예상됩니다. 그럼에도 불구하고 전반적인 확장 추세는 블록 크기가 증가함에 따라 NVMe-oF RDMA가 일반적으로 작동하는 방식과 정확히 일치합니다.

가장 작은 블록 크기에서 시스템은 순차 및 랜덤 워크로드 모두에서 600만 IOPS 이상을 제공할 수 있습니다. 읽기, 쓰기, 랜덤 읽기 및 랜덤 쓰기는 모두 4K 및 8K에서 거의 동일한 범위에 있으며, 프론트엔드 클라이언트, PCIe 인프라 및 NVMe 드라이브 자체에 요청 속도를 따라가는 데 문제가 없음을 나타냅니다.

블록 크기가 증가함에 따라 예상되는 IOPS 감소가 시작됩니다. 32K에서 읽기는 약 470만 IOPS에 도달하고, 쓰기는 약 440만으로 약간 뒤처집니다. 랜덤 쓰기는 여기서 가장 큰 타격을 받아 약 330만 IOPS로 감소하는데, 이는 혼합 액세스 패턴으로 인한 추가 큐 및 CPU 오버헤드와 일치합니다.

대형 블록으로 이동하면 IOPS는 예측 가능한 선형 방식으로 계속 감소합니다. 256K 및 512K 전송에 도달하면 처리량이 주요 지표가 되고 IOPS는 자연스럽게 수십만 개로 떨어집니다. 1M 블록 크기에서 모든 워크로드는 140K-153K IOPS로 수렴되며, 이는 이전 섹션에서 본 대역폭 수치와 일치합니다.

GPUDirect 스토리지 성능

R7725xd에서 수행한 테스트 중 하나는 Magnum IO GPUDirect 스토리지(GDS) 테스트였습니다. GDS는 NVIDIA에서 개발한 기능으로, GPU가 NVMe 드라이브 또는 기타 고속 스토리지 장치에 저장된 데이터에 액세스할 때 CPU를 우회할 수 있도록 합니다. GDS는 데이터를 CPU 및 시스템 메모리를 통해 라우팅하는 대신 GPU와 스토리지 장치 간의 직접 통신을 가능하게 하여 지연 시간을 크게 줄이고 데이터 처리량을 향상시킵니다.

GPUDirect 스토리지 작동 방식

전통적으로 GPU가 NVMe 드라이브에 저장된 데이터를 처리할 때, 데이터는 GPU에 도달하기 전에 먼저 CPU와 시스템 메모리를 통과해야 합니다. 이 과정은 CPU가 중간자 역할을 하여 지연 시간을 추가하고 귀중한 시스템 리소스를 소비하기 때문에 병목 현상을 유발합니다. GPUDirect 스토리지은 GPU가 PCIe 버스를 통해 스토리지 장치에서 직접 데이터에 액세스할 수 있도록 하여 이러한 비효율성을 제거합니다. 이 직접 경로는 데이터 이동 오버헤드를 줄여 더 빠르고 효율적인 데이터 전송을 가능하게 합니다.

특히 딥 러닝을 포함하는 AI 워크로드는 데이터 집약적입니다. 대규모 신경망을 학습하려면 테라바이트의 데이터를 처리해야 하며, 데이터 전송의 지연은 GPU 활용 부족과 학습 시간 증가로 이어질 수 있습니다. GPUDirect 스토리지은 데이터가 가능한 한 빨리 GPU에 전달되도록 하여 유휴 시간을 최소화하고 계산 효율성을 극대화함으로써 이러한 문제를 해결합니다.

또한 GDS는 비디오 처리, 자연어 처리 또는 실시간 추론과 같이 대규모 데이터 세트를 스트리밍하는 워크로드에 특히 유용합니다. CPU에 대한 의존도를 줄임으로써 GDS는 데이터 이동을 가속화하고 CPU 리소스를 다른 작업에 할당하여 전반적인 시스템 성능을 더욱 향상시킵니다.

순수 대역폭 외에도 NVMe-oF(TCP/RDMA)를 사용하는 GPUDirect는 초저지연 I/O를 제공합니다. 이를 통해 GPU는 데이터 부족에 시달리지 않아 실시간 AI 추론, 분석 파이프라인 및 비디오 재생에 이상적인 시스템입니다.

GDSIO 읽기 순차

단일 클라이언트를 사용하여 GDSIO와 함께 PEAK:AIO를 검사할 때, 읽기 처리량은 블록 크기와 스레드 수가 모두 증가함에 따라 명확한 확장 패턴을 보여줍니다. 이 단일 클라이언트는 두 개의 400G 링크를 통해 연결되어 총 잠재력을 90GB/s로 제한했습니다.

가장 작은 블록 크기와 낮은 스레드 수에서는 성능이 보통이며, 4K 읽기는 단일 스레드에서 약 189MiB/s로 시작합니다. 스레드 병렬성을 즉시 증가시키면 시스템이 즉시 응답하여 4개의 스레드에서 691MiB/s를 달성하고 더 큰 블록으로 이동함에 따라 멀티 GiB/s 범위로 진입합니다.

중간 범위 블록 크기는 스레드 수에 가장 민감하게 반응합니다. 32K에서 처리량은 단일 스레드에서 1.3GiB/s에서 64개의 스레드로 거의 20GiB/s로 증가하며, 그 이후에는 약간의 감소만 있습니다. 64K 및 128K에서도 유사한 패턴이 나타나며, 시스템은 낮은 병렬성에서 낮은 단일 자릿수 GiB/s에서 워크로드가 확장됨에 따라 30GiB/s 이상으로 전환됩니다.

더 큰 블록 크기에 도달하면 시스템이 단일 클라이언트에 대한 성능 상한선에 가까워짐에 따라 처리량이 평준화되기 시작합니다. 1MiB에서 성능은 단일 스레드에서 11GiB/s에서 높은 스레드 수에서 약 88GiB/s로 증가합니다. 5MiB 및 10MiB 전송은 동일한 플래토를 보여주며, 테스트가 64, 128 또는 256개의 스레드에서 실행되는지에 관계없이 약 89~90GiB/s에서 최고치를 기록합니다.

GDSIO 쓰기 순차

쓰기 측면에서 확장 동작은 읽기와 유사한 패턴을 따르지만, 순차 쓰기 워크로드의 경우 예상대로 대부분의 블록 크기에서 성능이 약간 낮습니다. 가장 작은 블록 크기에서 처리량은 4K에서 단일 스레드에 대해 165MiB/s로 시작하여 병렬성이 증가함에 따라 꾸준히 증가합니다. 4개의 스레드에서는 619MiB/s를 약간 넘어서고, 8개의 스레드로 이동하면 1GiB/s를 넘어섭니다.

중간 범위 블록 크기는 스레드 수가 증가함에 따라 더 강한 이득을 보여줍니다. 32K에서 처리량은 1GiB/s 미만에서 시작하여 더 높은 스레드 수준에서 21GiB/s 이상으로 확장됩니다. 64K 및 128K 범위는 이러한 추세를 이어가며, 낮은 단일 자릿수 GiB/s에서 중간 30GiB/s 및 50GiB/s로 이동하며 워크로드가 더 병렬화됩니다.

더 큰 전송은 시스템이 자연스러운 쓰기 처리량 상한선에 도달하는 시점입니다. 1MiB에서 성능은 단일 스레드에서 13.3GiB/s에서 높은 스레드 수에서 90GiB/s 미만으로 증가합니다. 5MiB 및 10MiB 테스트는 유사한 패턴을 따르며, 시스템이 64, 128 또는 256개의 스레드에서 실행되는지에 관계없이 결과는 약 90GiB/s에서 최고치를 기록합니다.

Gen5 시대의 성능 재정의

Dell PowerEdge R7725xd는 전통적인 스토리지 서버의 역할을 초월합니다. 데이터 센터 랙 내에서 대역폭이 조정되는 방식의 중요한 변화를 나타냅니다. PCIe 스위치를 완전히 배제하고 각 NVMe 드라이브에 CPU에 대한 전용 직접 연결을 제공함으로써 Dell은 처리량이 선형적으로 확장되고, 열 동작이 완전히 예측 가능하며, 높은 동시성이 설계 과제가 아닌 성능 이점으로 활용되는 플랫폼을 설계했습니다.

Micron의 9550 PRO SSD 및 PEAK:AIO 소프트웨어의 병렬 I/O 기능과 결합된 R7725xd는 집약적인 NVMe 인클로저에서 완전한 데이터 엔진으로 발전합니다. 컴팩트한 2U 폼 팩터 내에서 이 서버는 로컬 PCIe 패브릭을 포화시킬 뿐만 아니라 RDMA를 통해 GPU에 라인 속도로 데이터를 공급하거나 컴퓨팅 및 스토리지 워크로드를 동시에 실행할 수도 있습니다.

Dell PowerEdge R7225xd 히어로Dell PowerEdge R7225xd

실제 시나리오에서 이 강력한 구성은 300GB/s 이상의 내부 처리량과 160GB/s의 네트워크 처리량을 제공합니다. 이 성능은 훨씬 더 복잡하고 비용이 많이 드는 다중 노드 스토리지 클러스터에 필적하며, 모두 단순하고 비용 효율적인 단일 노드 솔루션 내에서 이루어집니다. 이는 아키텍처 정렬의 힘을 보여주는 강력한 증거입니다. 즉, 원시 실리콘부터 최적화된 소프트웨어까지 모든 계층이 효율성과 지속적인 고대역폭을 우선시하도록 설계되었습니다.

R7725xd는 Gen5 시대의 단일 노드 스토리지 성능에 대한 새로운 표준을 확립합니다. 차세대 AI 파이프라인, 고속 분석 인프라 또는 체크포인트 집약적 학습 환경을 구축하는 기업 및 연구 그룹에게는 시스템 병목 현상이 과거의 일이 되어 이전에는 달성할 수 없었던 성능 잠재력을 발휘하는 미래를 엿볼 수 있는 기회를 제공합니다.

북경 건싱 지통 과학기술 유한회사
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com

비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
"기술을 사용하여 지능형 세계를 구축하십시오" 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!

PREV: 뉴 델 테크놀로지 파워볼트 MD JBODs Tame 데이터 폭발

NEXT: 브로드컴 메가레이드 9670W-16i 레이드 카드 리뷰

연락처 세부 사항

Beijing Qianxing Jietong Technology Co., Ltd.

담당자: Ms. Sandy Yang

전화 번호: 13426366826

약

랙 스토리지 서버: 12 만 1U 랙마운트 서버 레노버 씽크시스템 SR630 랙 서버; 씽크시스템 SR250 V2 4SFF 랙 스토리지 서버 인텔 제온 E-2378G 프로세서; 인텔 C621A 랙 스토리지 서버 인스푸르 NF5180M6 1U 선반 장착 서버

화웨이 퓨젼 서버: 퓨전서버 5288 V6 4U 랙 서버 32 DDR4 DIMMs 44 3.5 인치 하드 디스크; 극단적 고밀도 화웨이 퓨젼 서버 1U 네트워크 정보 저장 서버 1288H V5; 새로운 일반정보 오션스터 5310 화웨이 랙 서버 하이브리드 플래쉬 저장

메시지를 남겨주세요