logo
사건

AMD 인스틴트 MI355X는 초당 100만 토큰 이상의 MLPerf 추론 v6.0 이득을 달성하고 확장 가능한 ROC를 지원합니다.

인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
중국 Beijing Qianxing Jietong Technology Co., Ltd. 인증
고객 검토
베이징 첸싱 지에통 테크 주식회사의 영업 사원은 매우 전문적이고 참을성 있습니다. 그들은 빨리 인용을 제공할 수 있습니다. 제품의 품질과 패키징은 또한 매우 좋습니다. 우리의 협력은 매우 매끄럽습니다.

—— 《Festfing DV》LLC

내가 긴급히 인텔 CPU와 토시바 SSD를 찾고 있었늘 때, 베이징 첸싱 지에통 기술 주식회사로부터의 샌디는 나에게 많은 도움을 주었고, 나에게 빨리 필요로 한 제품을 가져다 주었습니다. 나는 정말로 그녀를 압니다.

—— 고양이 엔

베이징 첸싱 지에통 기술 주식회사의 샌디는 내가 서버를 구입할 때 제시간에 나에게 구성 오류를 상기시킬 수 있는 매우 주의깊은 판매원을 있습니다. 엔지니어들은 또한 매우 전문적이고, 빠르게 테스팅 프로세스를 완료할 수 있습니다.

—— 스트렐킨 미하일 블라드미로비치

베이징 첸싱지에통과의 협업에 매우 만족합니다. 제품 품질이 훌륭하고, 배송도 항상 제 시간에 이루어집니다. 영업팀은 전문적이고, 인내심이 많으며, 모든 질문에 매우 친절하게 답변해 줍니다. 그들의 지원에 진심으로 감사드리며, 장기적인 파트너십을 기대합니다. 강력 추천합니다!

—— Ahmad Navid

품질: 제 공급업체와의 좋은 경험. 미크로틱 RB3011은 이미 사용되었지만 매우 좋은 상태로 모든 것이 완벽하게 작동합니다. 통신은 빠르고 원활했습니다.그리고 제 모든 걱정은 빠르게 해결되었습니다.매우 신뢰할 수 있는 공급자

—— 제란 콜레시오

제가 지금 온라인 채팅 해요

AMD 인스틴트 MI355X는 초당 100만 토큰 이상의 MLPerf 추론 v6.0 이득을 달성하고 확장 가능한 ROC를 지원합니다.

April 15, 2026
AMD는 MLPerf Inference v6.0 벤치마크 결과를 발표하며 Instinct MI355X GPU를 단일 노드, 다중 노드 및 이기종 배포를 지원하는 확장 가능한 추론 플랫폼으로 포지셔닝했습니다. 점진적인 성능 향상을 넘어, 이번 제출은 새로운 워크로드를 소개하고, 초당 100만 토큰 이상의 클러스터 규모 처리량을 시연하며, 확장되는 파트너 생태계 전반에 걸쳐 일관된 성능 재현성을 검증합니다.

CDNA 4 아키텍처, 고용량 추론 타겟


Instinct MI355X는 AMD의 CDNA 4 아키텍처를 기반으로 하며, TSMC 듀얼 프로세스 칩렛 설계를 활용합니다. 컴퓨트 다이(XCD)는 3nm 노드를 사용하고, I/O 다이는 6nm FinFET 기술을 활용합니다. 멀티 칩렛 패키지는 1850억 개의 트랜지스터를 통합하고 FP4 및 FP6 데이터 형식을 지원하며, 이는 효율적인 대규모 모델 추론에 중요합니다. 각 GPU는 최대 288GB의 HBM3E 메모리(8TB/초 메모리 대역폭 제공)를 갖추고 있어 단일 장치에서 최대 5200억 개의 매개변수를 가진 모델을 지원할 수 있습니다. AMD는 이러한 컴퓨트 밀도와 메모리 용량의 조합이 과도한 모델 분할의 필요성을 제거하여 대규모 추론 워크로드에 중요한 이점을 제공한다고 강조합니다.

UBB8 구성으로 제공되는 이 플랫폼은 에어 냉각 및 직접 액체 냉각 옵션을 모두 제공하여 다양한 데이터 센터 배포 요구 사항에 부합합니다. 특히 MI355X는 액체 냉각 시 1400W TBP(열 설계 전력)를 특징으로 하며, 에어 냉각 버전인 MI350X보다 높은 성능을 제공합니다.

다중 노드 처리량, 초당 100만 토큰 초과


MLPerf v6.0 라운드의 주목할 만한 성과는 AMD의 클러스터 규모 처리량이 초당 100만 토큰을 초과했다는 것입니다. Instinct MI355X GPU를 사용하여 AMD는 Llama 2 70B를 서버 및 오프라인 시나리오 모두에서, 그리고 GPT-OSS-120B를 오프라인 모드에서 이 이정표를 달성했습니다.

최신 회사 사례 AMD 인스틴트 MI355X는 초당 100만 토큰 이상의 MLPerf 추론 v6.0 이득을 달성하고 확장 가능한 ROC를 지원합니다.  0

AMD MLPerf 초당 100만 토큰 그래픽

이 결과는 개별 가속기당이 아닌 클러스터 수준에서 추론 성능을 평가하는 업계의 증가하는 추세를 반영합니다. 총 처리량과 서비스 제공 시간은 대규모 AI 배포에서 프로덕션 준비 상태를 결정하는 주요 지표가 되었습니다.

AMD는 또한 뛰어난 확장 효율성을 입증했습니다. Llama 2 70B의 경우, 11개 노드, 87개 GPU 구성으로 오프라인, 서버 및 대화형 시나리오 전반에 걸쳐 초당 100만 토큰 이상을 달성했으며, 확장 효율성은 93%에서 98% 사이였습니다. GPT-OSS-120B의 경우, 12개 노드, 94개 GPU 클러스터가 90% 이상의 확장 효율성으로 유사한 처리량을 제공하여, 배포가 단일 시스템을 넘어 확장될 때 성능이 효과적으로 전달됨을 입증했습니다.

세대별 성능 향상 및 경쟁력 있는 단일 노드 성능


AMD는 Instinct MI355X가 이전 세대 Instinct MI325X에 비해 Llama 2 70B 서버에서 3.1배 더 나은 성능을 제공하며 초당 100,282 토큰에 도달했다고 보고했습니다. 이러한 개선은 CDNA 4 아키텍처 향상과 ROCm 소프트웨어 최적화 모두에서 비롯됩니다. 오프라인 점수는 이전 MLPerf 라운드에 비해 4.4배, 서버 점수는 4.8배 향상되었으며, 이는 주로 MI355X의 핵심 기능인 FP4 양자화에 의해 주도되었습니다. 이는 AI 워크로드의 처리량을 높입니다.

AMD 추론 결과 vs 이전 세대 그래픽

NVIDIA 플랫폼과의 단일 노드 비교에서 MI355X는 강력한 경쟁력을 보여주었습니다. Llama 2 70B에서 오프라인 처리량에서 NVIDIA B200과 동등했으며, 서버 성능에서 거의 동등했으며, 대화형 모드에서는 이를 능가했습니다. NVIDIA B300과 비교했을 때, MI355X는 오프라인 성능의 92%, 서버 성능의 93%를 제공했으며, 대화형 모드에서는 4%를 초과했습니다. 특히 MI355X는 NVIDIA B200에 비해 달러당 40% 더 많은 토큰을 제공하는 뛰어난 비용 효율성을 제공합니다.

최초 모델 지원 확장으로 커버리지 확대


MLPerf Inference v6.0은 여러 새로운 워크로드를 도입했으며, AMD는 이번 라운드에서 빠른 모델 지원을 선보였습니다. 혼합 전문가 모델인 GPT-OSS-120B가 MI355X와 함께 MLPerf에 데뷔했으며, 오프라인 및 서버 시나리오 모두에서 NVIDIA 시스템과 경쟁력 있는 결과를 달성했습니다.

AMD는 또한 멀티모달 및 생성 비디오 추론 분야에 진출하며 Wan-2.2 텍스트-비디오 생성에 대한 결과를 제출했습니다. 공식 제출은 단일 스트림 지연 시간에 초점을 맞췄지만, 결과는 기존 플랫폼과 동등했습니다. 제출 후 튜닝은 성능을 더욱 향상시켜 소프트웨어 스택이 성숙함에 따라 최적화 여지를 보여주었습니다.

이러한 추가 사항은 AMD가 전통적인 LLM 벤치마크를 넘어 다양한 사용 사례에 걸쳐 신흥 AI 워크로드를 지원하려는 노력을 강조합니다.

ROCm 소프트웨어, 확장 및 이기종 추론 지원


AMD는 MI355X의 성능과 확장성의 상당 부분을 ROCm 소프트웨어 스택 덕분으로 돌립니다. 주요 개선 사항에는 최적화된 FP4 실행, 분산 추론을 위한 GPU 간 통신 개선, 이기종 환경 전반의 동적 워크로드 분산 지원이 포함되며, 이는 혼합 GPU 배포에 중요합니다.

AMD MLPerf 추론 결과 Instinct MI355X 그래픽
Dell과 MangoBoost가 개발한 획기적인 이기종 제출은 세 가지 AMD Instinct GPU 모델(MI300X, MI325X, MI355X)을 사용했습니다. 이 구성은 Llama 2 70B 서버에서 초당 141,521 토큰, Llama 2 70B 오프라인에서 초당 151,843 토큰을 달성했습니다. 특히 MI355X 플랫폼은 Dell의 미국 연구소에 위치했으며, MI300X 및 MI325X 시스템은 한국에 위치하여 지리적 위치에 걸쳐 분산 시스템을 조정하는 능력을 보여주었습니다.

생태계 성장 및 재현성


AMD의 파트너 생태계는 이번 MLPerf 라운드에서 크게 확장되었으며, 9개 회사가 여러 Instinct GPU 세대에 걸쳐 결과를 제출했습니다. 참여 업체에는 Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, Red Hat이 포함되어 AMD의 추론 솔루션에 대한 광범위한 업계 채택을 반영합니다.

파트너 제출 결과는 AMD의 내부 결과와 밀접하게 일치했으며, 일반적으로 4% 이내, 일부 경우에는 1% 이내였습니다. 이러한 일관성은 MI355X 성능이 OEM 및 클라우드 플랫폼 전반에 걸쳐 재현 가능함을 확인시켜 주며, 배포 위험을 줄이고 실제 성능 결과에 대한 신뢰를 높입니다.

베이징 첸싱 지에통 기술 유한 회사
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
기술을 통해 지능형 세상을 구축하십시오! 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!
연락처 세부 사항
Beijing Qianxing Jietong Technology Co., Ltd.

담당자: Ms. Sandy Yang

전화 번호: 13426366826

회사에 직접 문의 보내기 (0 / 3000)