| NVIDIA L4 사양 | |
|---|---|
| FP 32 | 30.3 테라플롭스 |
| TF32 Tensor 코어 | 60 테라플롭스 |
| FP16 Tensor 코어 | 121 테라플롭스 |
| BFLOAT16 Tensor 코어 | 121 테라플롭스 |
| FP8 Tensor 코어 | 242.5 테라플롭스 |
| INT8 Tensor 코어 | 242.5 TOPs |
| GPU 메모리 | 24GB GDDR6 |
| GPU 메모리 대역폭 | 300GB/s |
| 최대 열 설계 전력 (TDP) | 72W |
| 폼 팩터 | 1슬롯 로우 프로파일 PCIe |
| 인터커넥트 | PCIe Gen4 x16 |
| 사양 차트 | L4 |
물론 L4 가격이 약 2500달러이고 A2는 절반 가격이며 오래되었지만 여전히 꽤 유능한 T4는 중고로 1000달러 미만에 구할 수 있으므로 이 세 가지 추론 GPU의 차이점은 무엇인지 묻는 것이 분명합니다.
| NVIDIA L4, A2 및 T4 사양 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 테라플롭스 | 4.5 테라플롭스 | 8.1 테라플롭스 |
| TF32 Tensor 코어 | 60 테라플롭스 | 9 테라플롭스 | 해당 없음 |
| FP16 Tensor 코어 | 121 테라플롭스 | 18 테라플롭스 | 해당 없음 |
| BFLOAT16 Tensor 코어 | 121 테라플롭스 | 18 테라플롭스 | 해당 없음 |
| FP8 Tensor 코어 | 242.5 테라플롭스 | 해당 없음 | 해당 없음 |
| INT8 Tensor 코어 | 242.5 TOPs | 36 TOPS | 130 TOPS |
| GPU 메모리 | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| GPU 메모리 대역폭 | 300GB/s | 200GB/s | 320+ GB/s |
| 최대 열 설계 전력 (TDP) | 72W | 40-60W | 70W |
| 폼 팩터 | 1슬롯 로우 프로파일 PCIe | ||
| 인터커넥트 | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| 사양 차트 | L4 | A2 | T4 |
이 세 가지 카드를 볼 때 이해해야 할 한 가지는 세 가지가 세대별 1:1 교체가 아니라는 것입니다. 이것이 T4가 수년 후에도 일부 사용 사례에서 인기 있는 선택으로 남아 있는 이유를 설명합니다. A2는 저전력 및 더 호환되는 (x8 대 x16 기계적) 옵션으로 T4를 대체하기 위해 출시되었습니다. 기술적으로 L4는 T4를 대체하며 A2는 향후 새로 고침될 수도 있고 그렇지 않을 수도 있는 중간 지점에 있습니다.
MLPerf 추론 3.1 성능
MLPerf는 공정하고 관련성 있는 AI 하드웨어 및 소프트웨어 벤치마크를 제공하기 위해 설립된 학계, 연구 및 산업의 AI 리더 컨소시엄입니다. 이러한 벤치마크는 다양한 작업 및 시나리오에서 기계 학습 하드웨어, 소프트웨어 및 서비스의 성능을 측정하도록 설계되었습니다.
저희 테스트는 두 가지 특정 MLPerf 벤치마크인 Resnet50과 BERT에 중점을 둡니다.
- Resnet50: 이미지 분류에 주로 사용되는 컨볼루션 신경망입니다. 시스템이 이미지 처리와 관련된 딥 러닝 작업을 얼마나 잘 처리할 수 있는지 보여주는 좋은 지표입니다.
- BERT (양방향 인코더 표현 트랜스포머): 이 벤치마크는 자연어 처리 작업에 중점을 두어 시스템이 인간 언어를 이해하고 처리하는 데 얼마나 잘 수행되는지에 대한 통찰력을 제공합니다.
이 두 테스트는 이미지 및 언어 처리를 포함하는 실제 시나리오에서 AI 하드웨어의 기능을 평가하는 데 중요합니다.
이러한 벤치마크를 사용하여 NVIDIA L4를 평가하는 것은 특정 AI 작업에서 L4 GPU의 기능을 이해하는 데 중요합니다. 또한 다양한 구성(단일, 이중 및 쿼드 설정)이 성능에 미치는 영향을 보여줍니다. 이 정보는 AI 인프라를 최적화하려는 전문가 및 조직에게 매우 중요합니다.
모델은 서버와 오프라인이라는 두 가지 주요 모드에서 실행됩니다.
- 오프라인 모드: 이 모드는 모든 데이터를 동시에 처리할 수 있을 때 시스템의 성능을 측정합니다. 시스템이 대규모 데이터 세트를 단일 배치로 처리하는 배치 처리와 유사합니다. 오프라인 모드는 지연 시간이 주요 관심사가 아니지만 처리량과 효율성이 중요한 시나리오에 중요합니다.
- 서버 모드: 대조적으로 서버 모드는 요청이 한 번에 하나씩 들어오는 실제 서버 환경을 모방하는 시나리오에서 시스템의 성능을 평가합니다. 이 모드는 지연 시간에 민감하며 시스템이 각 요청에 얼마나 빨리 응답할 수 있는지 측정합니다. 웹 서버 또는 대화형 애플리케이션과 같이 즉각적인 응답이 필요한 실시간 애플리케이션에 필수적입니다.
1 x NVIDIA L4 – Dell PowerEdge XR7620
최근 Dell PowerEdge XR7620 리뷰의 일부로, 단일 NVIDIA L4를 장착하고 MLPerf를 포함한 여러 작업을 실행하기 위해 엣지로 가져갔습니다.
테스트 시스템 구성에는 다음 구성 요소가 포함되었습니다.
- 2 x Xeon Gold 6426Y – 16코어 2.5GHz
- 1 x NVIDIA L4
- 8 x 16GB DDR5
- 480GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA 드라이버 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | 점수 |
|---|---|
| Resnet50 – 서버 | 12,204.40 |
| Resnet50 – 오프라인 | 13,010.20 |
| BERT K99 – 서버 | 898.945 |
| BERT K99 – 오프라인 | 973.435 |
Resnet50 및 BERT K99의 서버 및 오프라인 시나리오에서의 성능은 거의 동일하며, 이는 L4가 다른 서버 모델 전반에 걸쳐 일관된 성능을 유지함을 나타냅니다.
1, 2 & 4 NVIDIA L4 – Dell PowerEdge T560
리뷰 단위 구성에는 다음 구성 요소가 포함되었습니다.
- 2 x Intel Xeon Gold 6448Y (각각 32코어/64스레드, 225와트 TDP, 2.1-4.1GHz)
- 8 x 1.6TB Solidigm P5520 SSD w/ PERC 12 RAID 카드
- 1-4x NVIDIA L4 GPU
- 8 x 64GB RDIMM
- Ubuntu Server 22.04
- NVIDIA 드라이버 535
| Dell PowerEdge T560 1x NVIDIA L4 | 점수 |
|---|---|
| Resnet50 – 서버 | 12,204.40 |
| Resnet50 – 오프라인 | 12,872.10 |
| Bert K99 – 서버 | 898.945 |
| Bert K99 – 오프라인 | 945.146 |
Dell T560에서 두 개의 L4를 사용한 테스트에서 Resnet50 및 BERT K99 벤치마크 모두에서 거의 선형적인 성능 확장을 관찰했습니다. 이러한 확장은 L4 GPU의 효율성과 오버헤드 또는 비효율성으로 인한 상당한 손실 없이 함께 작동하는 능력에 대한 증거입니다.
| Dell PowerEdge T560 2x NVIDIA L4 | 점수 |
|---|---|
| Resnet50 – 서버 | 24,407.50 |
| Resnet50 – 오프라인 | 25,463.20 |
| BERT K99 – 서버 | 1,801.28 |
| BERT K99 – 오프라인 | 1,904.10 |
두 개의 NVIDIA L4 GPU에서 목격한 일관된 선형 확장은 네 개의 L4 유닛을 갖춘 구성에서도 인상적으로 확장됩니다. 이러한 확장은 병렬 처리 및 리소스 관리의 복잡성으로 인해 각 GPU가 추가될 때마다 선형 성능 이득을 유지하는 것이 점점 더 어려워지기 때문에 특히 주목할 만합니다.
| Dell PowerEdge T560 4x NVIDIA L4 | 점수 |
|---|---|
| Resnet50 – 서버 | 48,818.30 |
| Resnet50 – 오프라인 | 51,381.70 |
| BERT K99 – 서버 | 3,604.96 |
| BERT K99 – 오프라인 | 3,821.46 |
이 결과는 설명 목적으로만 제공되며 경쟁적이거나 공식적인 MLPerf 결과가 아닙니다. 완전한 공식 결과 목록은 MLPerf 결과 페이지를 방문하십시오.
NVIDIA L4 GPU의 선형 확장성 검증 외에도 실험실 테스트는 다양한 운영 시나리오에서 이러한 장치를 배포하는 실제적인 의미를 조명했습니다. 예를 들어, L4 GPU를 사용한 모든 구성에서 서버 및 오프라인 모드 간의 성능 일관성은 안정성과 다용성을 보여줍니다.
이 측면은 운영 맥락이 크게 다른 비즈니스 및 연구 기관에 특히 관련이 있습니다. 또한 상호 연결 병목 현상의 최소 영향과 다중 GPU 설정에서 GPU 동기화의 효율성에 대한 관찰은 AI 인프라를 확장하려는 사람들에게 귀중한 통찰력을 제공합니다. 이러한 통찰력은 단순한 벤치마크 숫자를 넘어 이러한 하드웨어가 실제 시나리오에서 어떻게 최적으로 활용될 수 있는지에 대한 더 깊은 이해를 제공하여 AI 및 HPC 인프라에 대한 더 나은 아키텍처 결정 및 투자 전략을 안내합니다.
NVIDIA L4 – 애플리케이션 성능
이전 모델인 NVIDIA A2 및 NVIDIA T4와 새로운 NVIDIA L4의 성능을 비교했습니다. 이전 모델에 비해 이러한 성능 업그레이드를 보여주기 위해 실험실 서버에 세 가지 모델을 모두 배포하고 Windows Server 2022와 최신 NVIDIA 드라이버를 사용하여 전체 GPU 테스트 제품군을 활용했습니다.
이 카드들은 다음 구성으로 Dell Poweredge R760에서 테스트되었습니다.
- 2 x Intel Xeon Gold 6430 (32코어, 2.1GHz)
- Windows Server 2022
- NVIDIA 드라이버 538.15
- 1x 샘플링을 위해 모든 카드에서 ECC 비활성화
이 세 가지 엔터프라이즈 GPU 그룹 간의 성능 테스트를 시작하면서 이전 A2 및 T4 모델 간의 고유한 성능 차이를 주목하는 것이 중요합니다. A2가 출시되었을 때, 낮은 전력 소비와 더 작은 PCIe Gen4 x8 슬롯에서 작동하는 것과 같은 몇 가지 주목할 만한 개선 사항을 제공했습니다. 이전 T4가 필요했던 더 큰 PCIe Gen3 x16 슬롯 대신에 말입니다. 즉시 더 많은 시스템에 장착할 수 있었으며, 특히 더 작은 풋프린트가 필요했습니다.
Blender OptiX 4.0
Blender OptiX는 오픈 소스 3D 모델링 애플리케이션입니다. 이 테스트는 CPU 및 GPU 모두에서 실행할 수 있지만, 여기의 다른 대부분의 테스트와 마찬가지로 GPU만 실행했습니다. 이 벤치마크는 Blender Benchmark CLI 유틸리티를 사용하여 실행되었습니다. 점수는 분당 샘플이며 높을수록 좋습니다.
| Blender 4.0 (높을수록 좋음) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – 몬스터 | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI – 정크샵 | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI – 교실 | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW 속도 테스트
CPU 및 GPU를 Blackmagic의 RAW Speed Test로 테스트하여 비디오 재생 속도를 테스트합니다. 이는 CPU 및 GPU 성능을 포함하는 하이브리드 테스트로 실제 RAW 디코딩에 사용됩니다. 이러한 결과는 별도로 표시되지만 GPU에만 초점을 맞추므로 CPU 결과는 생략됩니다.
| Blackmagic RAW 속도 테스트 (높을수록 좋음) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon의 Cinebench 2024는 모든 CPU 코어와 스레드를 활용하는 CPU 및 GPU 렌더링 벤치마크입니다. 다시 GPU 결과에 초점을 맞추므로 CPU 부분은 테스트하지 않았습니다. 높은 점수가 좋습니다.
| Cinebench 2024 (높을수록 좋음) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3은 GPU 및 CPU를 통한 하드웨어 가속을 사용하여 수십억 개의 소수점까지 π(파이)를 계산하도록 설계된 경량 벤치마킹 유틸리티의 버전입니다. OpenCL 및 CUDA의 컴퓨팅 파워를 활용하며, 이는 중앙 및 그래픽 처리 장치를 모두 포함합니다. 세 GPU 모두에서 CUDA만 실행했으며, 여기서의 수치는 계산 시간에서 축소 시간을 제외한 값입니다. 낮을수록 좋습니다.
| GPU PI 계산 시간 (초) (낮을수록 좋음) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3.732초 | 19.799초 | 7.504초 |
| GPUPI v3.3 – 32B | 244.380초 | 1,210.801초 | 486.231초 |
이전 결과는 각 카드의 단일 반복만 살펴본 것이지만, Dell PowerEdge T560 내에서 5x NVIDIA L4 배포를 살펴볼 기회도 있었습니다.
| GPU PI 계산 시간 (초) (낮을수록 좋음) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) 5x NVIDIA L4 포함 |
|---|---|
| GPUPI v3.3 – 1B | 0초 850밀리초 |
| GPUPI v3.3 – 32B | 50초 361밀리초 |
Octanebench
OctaneBench는 V-Ray와 유사한 RTX 지원을 갖춘 또 다른 3D 렌더러인 OctaneRender의 벤치마킹 유틸리티입니다.
| Octane (높을수록 좋음) | ||||
| 장면 | 커널 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| 실내 | 정보 채널 | 15.59 | 4.49 | 6.39 |
| 직접 조명 | 50.85 | 14.32 | 21.76 | |
| 경로 추적 | 64.02 | 18.46 | 25.76 | |
| 아이디어 | 정보 채널 | 9.30 | 2.77 | 3.93 |
| 직접 조명 | 39.34 | 11.53 | 16.79 | |
| 경로 추적 | 48.24 | 14.21 | 20.32 | |
| ATV | 정보 채널 | 24.38 | 6.83 | 9.50 |
| 직접 조명 | 54.86 | 16.05 | 21.98 | |
| 경로 추적 | 68.98 | 20.06 | 27.50 | |
| 상자 | 정보 채널 | 12.89 | 3.88 | 5.42 |
| 직접 조명 | 48.80 | 14.59 | 21.36 | |
| 경로 추적 | 54.56 | 16.51 | 23.85 | |
| 총점 | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6는 전반적인 시스템 성능을 측정하는 크로스 플랫폼 벤치마크입니다. CPU 및 GPU 벤치마킹을 위한 테스트 옵션이 있습니다. 높은 점수가 좋습니다. 다시 GPU 결과만 살펴보았습니다.
Geekbench 브라우저에서 원하는 시스템과 비교할 수 있습니다.
| Geekbench 6.1.0 (높을수록 좋음) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark는 오픈 소스 3D 렌더링 엔진 LuxRender를 유지 관리하는 사람들이 만든 OpenCL 크로스 플랫폼 벤치마킹 도구입니다. 이 도구는 3D 모델링, 조명 및 비디오 작업에서 GPU 성능을 살펴봅니다. 이 리뷰에서는 최신 버전인 v4alpha0을 사용했습니다. LuxMark에서는 점수가 높을수록 좋습니다.
| Luxmark v4.0alpha0 OpenCL GPU (높을수록 좋음) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 홀 벤치 | 14,328 | 3,759 | 5,893 |
| 음식 벤치 | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
또한 CUDA용으로 컴파일된 분자 동역학 소프트웨어인 GROMACS를 소싱했습니다. 이 맞춤형 컴파일은 계산 시뮬레이션을 가속화하는 데 필수적인 5개의 NVIDIA L4 GPU의 병렬 처리 기능을 활용하기 위한 것이었습니다.
이 프로세스에는 NVIDIA의 CUDA 컴파일러인 nvcc와 서버 아키텍처에 맞게 바이너리가 제대로 조정되었는지 확인하기 위한 적절한 최적화 플래그의 여러 반복이 포함되었습니다. GROMACS 컴파일에 CUDA 지원을 포함하면 소프트웨어가 GPU 하드웨어와 직접 인터페이스할 수 있어 복잡한 시뮬레이션의 계산 시간을 크게 단축할 수 있습니다.
테스트: Gromacs의 맞춤형 단백질 상호작용
다양한 Discord 커뮤니티에서 제공한 특정 단백질 상호작용 연구에 맞게 조정된 매개변수와 구조를 포함하는 입력 파일을 활용하여 분자 동역학 시뮬레이션을 시작했습니다. 결과는 놀라웠습니다. 시스템은 하루에 170.268 나노초의 시뮬레이션 속도를 달성했습니다.
| GPU | 시스템 | ns/일 | 코어 시간 (초) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
AI 그 이상
샌디 양/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
"기술을 사용하여 지능형 세계를 구축하십시오" 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!



