AMD는 인스턴트 MI350P를 공식적으로 출시했습니다. 기존 데이터 센터 인프라를 개정하지 않고 현장 인공지능 인퍼런스를 추구하는 기업 사용자에 맞게 만들어진 새로운 PCIe 가속기입니다.2개의 슬롯을 갖춘이 그래픽 카드는 전체 높이와 전체 길이의 형식 요소로, 일반적인 공기 냉각 서버와 완전히 호환됩니다.또한 AMD가 4년 만에 표준 서버 슬롯을 위해 설계된 현재 세대의 인스틴트 칩을 처음 출시한 것을 의미합니다..
AMD Instinct MI350P
AMD의 PCIe 기반 인스틴트 제품 라인은 2022년 초에 MI210이 출시 된 후에도 정체되어있었습니다. MI300X, MI325X 및 OAM 형식 MI350X를 포함한 모든 후속 세대,전용 유니버설 베이스보드에 장착된 채택된 OAM 소켓 모듈이 모듈들은 단 하나의 트레이에서 최대 8개의 1,000W급 가속기를 지원하기 위해 강력한 전력 공급과 공기 흐름을 갖춘 맞춤형 장비를 필요로 합니다.이러한 하드웨어 아키텍처는 GPU 랙을 대량으로 구매하는 하이퍼스케일 클라우드 공급업체에 적합합니다., 그러나 현장 추론 작업을 위해 맞춤형 AI 래크를 배포하지 않거나 할 수 없는 일반 기업을 수용하지 못합니다. MI350P는 정확히 이 시장 격차를 채우고 있습니다. 현재,NVIDIA는 이 세그먼트에서 고급 서버 수준의 PCIe 경쟁자가 없습니다., AMD는 일시적으로 시장 독점권을 남깁니다.
하드웨어 비교: MI350P 대 MI350X OAM
MI350P는 MI350X의 절단 변종이 아닙니다. AMD는이 새로운 모델에 독립적인 간소화 칩을 설계했습니다.MI350X는 두 개의 I/O 디어와 8 개의 가속기 복합 디어 (XCD) 를 통합합니다., 총 256 개의 컴퓨팅 유닛을 제공합니다. 반면 MI350P는 128 개의 컴퓨팅 유닛에 해당하는 I / O 다이 및 4 개의 XCD를 포함합니다. 실리콘 스케일을 반으로 줄임에도 불구하고 동일한 2 를 유지합니다.2GHz 피크 클럭 주파수메모리 구성은 동일한 다운그레이드 된 사양을 따르고 있습니다: 네 개의 HBM3E 스택 (여덟 대), 4,096 비트 메모리 버스 (8,192 비트에서 낮아),144GB 메모리 용량과 4TB/s 대역폭과 함께, 288GB와 8TB/s의 MI350X 즈와 비교하면.
AMD Instinct MI350P 아키텍처
최고 컴퓨팅 처리량도 절반으로 감소합니다. MI350P는 프리미엄 모델과 비교하여 2,300 FP8 TFLOPS와 함께 MI350X 즈 9.2 PFLOPS에 비해 4,600 MXFP4 TFLOPS에 도달합니다.BF16의 성능 측정, FP16 및 다른 정밀 표준은 동일한 비율 감소를 따르고 있습니다. 특히 AMD는 투명성을 위해 최고 및 실제 세계 지속된 성능 데이터를 모두 발표했습니다. 카드는 2,400mAh의 성능을 제공합니다.299 TFLOPS MXFP4, FP8에서 1,529 TFLOPS와 BF16에서 713 TFLOPS입니다. 이 실제 수치는 600W 전력 밸브 내에서 실제 출력을 반영합니다.전력 제한 및 메모리 대역폭 제한이 필연적으로 이론적 최고 성능을 낮추는 경우.
편집팀은 이전에 MI350X 플랫폼을 Supermicro의 Jumpstart 프로그램을 통해 평가했으며 강력한 추론 작업 부하 기능을 인식했습니다.연구팀은 MI350P의 실무 테스트를 열망하고 있습니다., 이 PCIe 형식 인자 가속기가 표준 상품 서버 차시 내에서 어떻게 작동하는지 분석합니다.
MI350P는 절반의 실리콘 스케일에도 불구하고 50%의 전력 감축을 특징으로하지 않습니다. 600W TBP 전력 등급을 가지고 있으며, 이는 MI350X의 1000W 한도의 약 60%에 해당합니다.이 최고 왓트는 PCIe CEM 사양의 상단계에 도달합니다., 슬롯의 최대 열 문턱에서 카드를 실행 하 고. 중대 성능 절감과 함께 불충분한 냉각을 가진 서버를 위해 감소 450W 작동 모드가 제공됩니다.같은 전력 브래킷에 위치, MI350P는 엔비디아의 H200 NVL 및 RTX Pro 6000 서버와 엔터프라이즈 조달에 직접 경쟁합니다.
NVL4 초고속 인터커넥트를 갖춘 NVIDIA H200와 달리 MI350P는 인피니티 패브릭 노출을 비활성화합니다. 모든 GPU 간 데이터 전송은 PCIe Gen5 x16의 128 GB/s 대역폭으로 제한됩니다.
8GPU 공기 냉각 배포
표준 듀얼 슬롯 FHFL PCIe 카드로서 MI350P는 기존 기업 서버와 호환됩니다. 주요 OEM는 밀도가 높은 8GPU 공기 냉각 모델을 제공합니다.이전에 검토 된 Dell PowerEdge XE7740 및 HPE ProLiant DL380a Gen12를 포함하여600W 가속기에 최적화 된 이 플랫폼은 사용자 지정 랙, 액체 냉각 또는 OAM 베이스보드가 필요하지 않습니다.
8 카드 MI350P 구성은 1,152GB HBM3E와 32 TB/s의 총 대역폭을 제공합니다.그것은 전용 껍질 가공 직물을 희생MI350X는 인피니티 팩브릭을 사용해서 빠른 모듈 간 통신을 하는 반면, MI350P는 PCIe Gen5에만 의존합니다.이 아키텍처는 추론을 위해 노드 로컬 텐서 병렬성 및 크로스 노드 데이터 병렬성, OAM 기반의 MI350X는 대역폭이 많은 AI 훈련 작업에서 우월합니다.
정밀 형식
MI350P는 업그레이드없이 MI350X에서 모든 정밀 형식을 계승합니다. MXFP4, MXFP6 및 MXFP8을 포함한 OCP 블록 확장 유형은 AI 모델 개발에 주류가되었습니다.낮은 정밀도의 훈련이 가능하고 품질이 거의 떨어지지 않습니다.. MXFP4는 FP8의 두 배 이상의 속도를 제공하고 BF16의 4 배 이상의 처리량을 제공합니다. OpenAI gpt-oss 및 Kimi K2.6과 같은 실제 사례는 네이티브 로브 비트 양자화의 가치를 입증합니다.MXFP4와 INT4 무게는 BF16 메모리 공간의 25%만 차지하기 때문에, 트리리온 매개 변수 모델은 단일 8GPU 서버 내부에 배포될 수 있으며, 현장 기업에 대한 번거로운 멀티 노드 클러스터를 제거합니다.
결론
대부분의 현장 인공지능 기업은 원시 컴퓨팅 능력보다는 전력, 냉각, 밀도 및 예산에 의해 제한됩니다. 드롭 인 MI350P는 이러한 배포 장벽을 효과적으로 완화합니다.이 세그먼트에서 대표적인 PCIe 서버 GPU가 없는 NVIDIA, AMD는 당분간 명확한 경쟁 우위를 유지하고 있습니다. 자세한 내용은 AMD의 공식 인스턴트 웹 페이지에서 사용할 수 있습니다.
베이징 첸징 지에텐 기술 회사, Ltd
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요
샌디 양/글로벌 전략 책임자
왓츠앱 / 위ቻ트: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로, 우리는 신뢰할 수 있는 제품과 전문적인 서비스를 제공하기 위해 세계적인 대표 브랜드와 파트너십을 맺습니다.
지능형 세계를 만들기 위해 기술을 사용하세요



