AMD는 MLPerf Inference v6.0 벤치마크 결과를 발표하며 Instinct MI355X GPU를 단일 노드, 다중 노드 및 이기종 배포를 지원하는 확장 가능한 추론 플랫폼으로 포지셔닝했습니다. 점진적인 성능 향상을 넘어, 이번 제출은 새로운 워크로드를 소개하고, 초당 100만 토큰 이상의 클러스터 규모 처리량을 시연하며, 확장되는 파트너 생태계 전반에 걸쳐 일관된 성능 재현성을 검증합니다.
CDNA 4 아키텍처, 고용량 추론 타겟
Instinct MI355X는 AMD의 CDNA 4 아키텍처를 기반으로 하며, TSMC 듀얼 프로세스 칩렛 설계를 활용합니다. 컴퓨트 다이(XCD)는 3nm 노드를 사용하고, I/O 다이는 6nm FinFET 기술을 활용합니다. 멀티 칩렛 패키지는 1850억 개의 트랜지스터를 통합하고 FP4 및 FP6 데이터 형식을 지원하며, 이는 효율적인 대규모 모델 추론에 중요합니다. 각 GPU는 최대 288GB의 HBM3E 메모리(8TB/초 메모리 대역폭 제공)를 갖추고 있어 단일 장치에서 최대 5200억 개의 매개변수를 가진 모델을 지원할 수 있습니다. AMD는 이러한 컴퓨트 밀도와 메모리 용량의 조합이 과도한 모델 분할의 필요성을 제거하여 대규모 추론 워크로드에 중요한 이점을 제공한다고 강조합니다.
UBB8 구성으로 제공되는 이 플랫폼은 에어 냉각 및 직접 액체 냉각 옵션을 모두 제공하여 다양한 데이터 센터 배포 요구 사항에 부합합니다. 특히 MI355X는 액체 냉각 시 1400W TBP(열 설계 전력)를 특징으로 하며, 에어 냉각 버전인 MI350X보다 높은 성능을 제공합니다.
다중 노드 처리량, 초당 100만 토큰 초과
MLPerf v6.0 라운드의 주목할 만한 성과는 AMD의 클러스터 규모 처리량이 초당 100만 토큰을 초과했다는 것입니다. Instinct MI355X GPU를 사용하여 AMD는 Llama 2 70B를 서버 및 오프라인 시나리오 모두에서, 그리고 GPT-OSS-120B를 오프라인 모드에서 이 이정표를 달성했습니다.
AMD MLPerf 초당 100만 토큰 그래픽
이 결과는 개별 가속기당이 아닌 클러스터 수준에서 추론 성능을 평가하는 업계의 증가하는 추세를 반영합니다. 총 처리량과 서비스 제공 시간은 대규모 AI 배포에서 프로덕션 준비 상태를 결정하는 주요 지표가 되었습니다.
AMD는 또한 뛰어난 확장 효율성을 입증했습니다. Llama 2 70B의 경우, 11개 노드, 87개 GPU 구성으로 오프라인, 서버 및 대화형 시나리오 전반에 걸쳐 초당 100만 토큰 이상을 달성했으며, 확장 효율성은 93%에서 98% 사이였습니다. GPT-OSS-120B의 경우, 12개 노드, 94개 GPU 클러스터가 90% 이상의 확장 효율성으로 유사한 처리량을 제공하여, 배포가 단일 시스템을 넘어 확장될 때 성능이 효과적으로 전달됨을 입증했습니다.
세대별 성능 향상 및 경쟁력 있는 단일 노드 성능
AMD는 Instinct MI355X가 이전 세대 Instinct MI325X에 비해 Llama 2 70B 서버에서 3.1배 더 나은 성능을 제공하며 초당 100,282 토큰에 도달했다고 보고했습니다. 이러한 개선은 CDNA 4 아키텍처 향상과 ROCm 소프트웨어 최적화 모두에서 비롯됩니다. 오프라인 점수는 이전 MLPerf 라운드에 비해 4.4배, 서버 점수는 4.8배 향상되었으며, 이는 주로 MI355X의 핵심 기능인 FP4 양자화에 의해 주도되었습니다. 이는 AI 워크로드의 처리량을 높입니다.
AMD 추론 결과 vs 이전 세대 그래픽
NVIDIA 플랫폼과의 단일 노드 비교에서 MI355X는 강력한 경쟁력을 보여주었습니다. Llama 2 70B에서 오프라인 처리량에서 NVIDIA B200과 동등했으며, 서버 성능에서 거의 동등했으며, 대화형 모드에서는 이를 능가했습니다. NVIDIA B300과 비교했을 때, MI355X는 오프라인 성능의 92%, 서버 성능의 93%를 제공했으며, 대화형 모드에서는 4%를 초과했습니다. 특히 MI355X는 NVIDIA B200에 비해 달러당 40% 더 많은 토큰을 제공하는 뛰어난 비용 효율성을 제공합니다.
최초 모델 지원 확장으로 커버리지 확대
MLPerf Inference v6.0은 여러 새로운 워크로드를 도입했으며, AMD는 이번 라운드에서 빠른 모델 지원을 선보였습니다. 혼합 전문가 모델인 GPT-OSS-120B가 MI355X와 함께 MLPerf에 데뷔했으며, 오프라인 및 서버 시나리오 모두에서 NVIDIA 시스템과 경쟁력 있는 결과를 달성했습니다.
AMD는 또한 멀티모달 및 생성 비디오 추론 분야에 진출하며 Wan-2.2 텍스트-비디오 생성에 대한 결과를 제출했습니다. 공식 제출은 단일 스트림 지연 시간에 초점을 맞췄지만, 결과는 기존 플랫폼과 동등했습니다. 제출 후 튜닝은 성능을 더욱 향상시켜 소프트웨어 스택이 성숙함에 따라 최적화 여지를 보여주었습니다.
이러한 추가 사항은 AMD가 전통적인 LLM 벤치마크를 넘어 다양한 사용 사례에 걸쳐 신흥 AI 워크로드를 지원하려는 노력을 강조합니다.
ROCm 소프트웨어, 확장 및 이기종 추론 지원
AMD는 MI355X의 성능과 확장성의 상당 부분을 ROCm 소프트웨어 스택 덕분으로 돌립니다. 주요 개선 사항에는 최적화된 FP4 실행, 분산 추론을 위한 GPU 간 통신 개선, 이기종 환경 전반의 동적 워크로드 분산 지원이 포함되며, 이는 혼합 GPU 배포에 중요합니다.
AMD MLPerf 추론 결과 Instinct MI355X 그래픽
Dell과 MangoBoost가 개발한 획기적인 이기종 제출은 세 가지 AMD Instinct GPU 모델(MI300X, MI325X, MI355X)을 사용했습니다. 이 구성은 Llama 2 70B 서버에서 초당 141,521 토큰, Llama 2 70B 오프라인에서 초당 151,843 토큰을 달성했습니다. 특히 MI355X 플랫폼은 Dell의 미국 연구소에 위치했으며, MI300X 및 MI325X 시스템은 한국에 위치하여 지리적 위치에 걸쳐 분산 시스템을 조정하는 능력을 보여주었습니다.
생태계 성장 및 재현성
AMD의 파트너 생태계는 이번 MLPerf 라운드에서 크게 확장되었으며, 9개 회사가 여러 Instinct GPU 세대에 걸쳐 결과를 제출했습니다. 참여 업체에는 Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, Red Hat이 포함되어 AMD의 추론 솔루션에 대한 광범위한 업계 채택을 반영합니다.
파트너 제출 결과는 AMD의 내부 결과와 밀접하게 일치했으며, 일반적으로 4% 이내, 일부 경우에는 1% 이내였습니다. 이러한 일관성은 MI355X 성능이 OEM 및 클라우드 플랫폼 전반에 걸쳐 재현 가능함을 확인시켜 주며, 배포 위험을 줄이고 실제 성능 결과에 대한 신뢰를 높입니다.
베이징 첸싱 지에통 기술 유한 회사
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
기술을 통해 지능형 세상을 구축하십시오! 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
기술을 통해 지능형 세상을 구축하십시오! 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!



