AI 모델 학습에서 체크포인팅은 복원력, 운영 효율성 및 저장된 상태에서 학습을 재개하거나 미세 조정할 수 있는 능력을 보장하기 때문에 필수적입니다. 그러나 점점 더 복잡해지는 모델과 방대한 학습 데이터셋으로 특징지어지는 최신 AI 워크로드의 요구 사항은 스토리지 시스템을 한계까지 밀어붙이고 있습니다.
AI 워크플로우에서 체크포인트의 역할
AI 학습에서의 체크포인팅은 학습 주기 동안 모델의 전체 상태를 주기적으로 저장하는 중요한 프로세스입니다. 이 상태에는 모델의 가중치와 매개변수, 옵티마이저 상태, 학습률 스케줄 및 학습 메타데이터가 포함됩니다. 특정 간격으로 학습 프로세스의 포괄적인 스냅샷을 생성함으로써 체크포인팅은 학습 연속성을 보장하고 중단 시 복구를 가능하게 합니다.
체크포인트는 일반적으로 반복 기반 간격(예: 1,000번의 학습 단계마다)으로 캡처됩니다. 수 주 또는 수개월에 걸쳐 방대한 컴퓨팅 리소스를 소비할 수 있는 최신 대규모 언어 모델(LLM) 학습은 잠재적 실패에 대한 안전망으로 이러한 체크포인트에 크게 의존합니다. 예를 들어, GPT-4급 모델을 학습하면 모델 크기와 학습 구성에 따라 수백 기가바이트에서 수 테라바이트에 이르는 체크포인트가 생성될 수 있습니다.
DALL-E에서 생성한 학습 프로세스
체크포인팅의 주요 목적은 단순한 백업 기능을 넘어섭니다. 이는 학습 복원력을 위한 중요한 메커니즘 역할을 하여 시스템 장애, 정전 또는 하드웨어 문제 발생 시 처음부터 다시 시작하는 대신 마지막 저장된 상태에서 학습을 재개할 수 있도록 합니다. 또한 체크포인트는 모델 분석에 매우 유용합니다. 연구원들이 다양한 학습 단계에서 모델의 진화를 검사하고 성능 저하가 감지될 경우 이전 상태로 롤백할 수 있습니다.
스토리지 관점에서 볼 때 체크포인팅 중 쓰기 패턴은 특히 주목할 만합니다. 체크포인트가 트리거되면 시스템은 버스트 패턴으로 엄청난 양의 데이터를 써야 합니다. 이는 뚜렷한 I/O 프로필을 만듭니다. 즉, 학습 계산 중에는 상대적으로 낮은 스토리지 활동 기간이 있고, 체크포인팅 중에는 강렬하고 높은 대역폭의 쓰기 작업이 이어집니다. 이러한 쓰기 작업은 일반적으로 순차적이며 높은 대역폭의 순차 쓰기에 최적화된 스토리지 시스템으로부터 상당한 이점을 얻을 수 있습니다.
분산 학습의 다양한 병렬 처리 전략은 체크포인팅 동작에 상당한 영향을 미칠 수 있습니다. 이러한 전략은 학습 중 체크포인팅이 발생하는 시점과 모델의 어느 부분이 저장되는지에 영향을 미칩니다. 최신 분산 학습 설정에서는 여러 GPU가 동일한 레이어의 다른 부분을 동시에 쓸 수 있어 복잡한 I/O 패턴이 생성됩니다. 이러한 병렬 쓰기 기능은 효율성의 핵심이지만, 데이터 일관성을 유지하면서 동시 쓰기 작업을 처리할 수 있는 신중한 조정과 강력한 스토리지 시스템이 필요합니다. 이 프로세스의 모든 병목 현상은 광범위한 학습 지연으로 이어질 수 있습니다.
느린 체크포인팅은 전체 학습 프로세스가 체크포인트가 스토리지에 기록되는 동안 일시 중지되어야 하므로 상당한 학습 병목 현상을 일으킬 수 있습니다. 예를 들어, 대규모 학습 설정에서 체크포인팅에 몇 시간마다 30분이 걸린다면 전체 학습 기간 동안 몇 시간의 누적 다운타임이 발생할 수 있습니다. 이는 학습 효율성에 직접적인 영향을 미치고 운영 비용을 증가시킵니다. 특히 시간당 컴퓨팅 리소스가 청구되는 클라우드 환경에서는 더욱 그렇습니다.
더 빠른 체크포인팅은 팀이 더 자주 체크포인트를 생성할 수 있도록 하여 실패 시 잠재적인 최대 데이터 손실을 줄입니다. 이를 통해 더 공격적인 학습 접근 방식과 개선된 실험 반복 주기가 가능해집니다. 또한 빠른 체크포인트 로딩 시간은 연구원들이 이전 상태에서 더 쉽게 복원하여 대안적인 접근 방식을 테스트할 수 있으므로 다양한 학습 구성 및 모델 아키텍처로 더 빠른 실험을 촉진합니다.
스토리지 시스템이 이러한 체크포인트 작업을 효율적으로 처리하는 능력은 전체 학습 인프라에서 중요한 요소가 됩니다. 체크포인팅의 버스트 쓰기 패턴과 학습의 지속적인 읽기/쓰기 작업을 모두 관리할 수 있는 고성능 스토리지 솔루션은 대규모 언어 모델 학습의 총 시간과 비용을 크게 줄일 수 있습니다. 따라서 스토리지 하위 시스템의 성능 특성, 특히 대규모 순차 쓰기 처리 능력과 일관된 높은 대역폭 유지 능력은 LLM 학습 인프라를 설계할 때 중요한 고려 사항입니다.
이 보고서에서는 AI 체크포인팅을 위한 SSD 성능을 평가하고, 체크포인트 속도가 중요한 경우 최신 Gen5 SSD의 이점을 시장에서 가장 큰 QLC SSD와 비교하여 평가했습니다. QLC SSD는 학습 중인 모델에 더 유익한 경우 방대한 수의 체크포인트를 저장할 수 있습니다.
체크포인트 성능 – DLIO로 벤치마킹
AI 학습 환경에서 Solidigm SSD의 실제 성능을 평가하기 위해 Data and Learning Input/Output(DLIO) 벤치마크 도구를 사용했습니다. Argonne National Laboratory에서 개발한 DLIO는 딥러닝 워크로드의 I/O 패턴을 테스트하도록 특별히 설계되어 스토리지 시스템이 체크포인팅, 데이터 수집 및 모델 학습 문제를 처리하는 방법에 대한 통찰력을 제공합니다.
DLIO를 사용하여 집중적인 체크포인팅 시나리오에서 드라이브의 처리량, 지연 시간 및 안정성을 측정하려고 했습니다. 이 테스트는 61.44TB D5-P5336에서 수행되었지만, 초기 성능 데이터에 따르면 Solidigm D5-P5336 122TB 버전은 유사한 성능 프로필을 제공합니다. 또한 PCIe Gen5의 이점을 보여주기 위해 TLC 기반 D7-PS1010의 결과도 포함했습니다. 이 두 드라이브를 선택한 이유는 체크포인트에 대한 두 가지 관점을 보여주기 위해서입니다. 하나는 가능한 가장 빠른 체크포인트 시간에 초점을 맞추고, 다른 하나는 단일 SSD에 최대 수의 체크포인트를 저장하는 데 초점을 맞춥니다.
이 작업을 위해 선택한 플랫폼은 Ubuntu 22.04.02 LTS를 실행하는 Dell PowerEdge R760이었습니다. 2024년 8월 13일 릴리스의 DLIO 벤치마크 버전 2.0을 사용했습니다. 시스템 구성은 다음과 같습니다.
- 2 x Intel Xeon Gold 6430 (32코어, 2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB Dell BOSS SSD
- 직렬 케이블 Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336
벤치마킹이 실제 시나리오를 반영하도록 하기 위해 LLAMA 3.1 405B 모델 아키텍처를 기반으로 테스트를 수행했으며, torch.save()를 통해 체크포인팅을 구현하여 모델 매개변수, 옵티마이저 상태 및 레이어 상태를 캡처했습니다. 설정은 8개 GPU 시스템을 시뮬레이션했으며, 4방향 텐서 병렬 처리와 2방향 파이프라인 병렬 처리를 혼합한 병렬 처리 전략을 8개 GPU에 분산하여 구현했습니다. 이 구성으로 인해 체크포인트 크기는 1,636GB가 되었으며, 이는 최신 대규모 언어 모델 학습 요구 사항을 나타냅니다.
DLIO 체크포인트 워크로드에 대한 테스트 프로세스는 각 드라이브를 유사한 활용 수준으로 채우는 것으로 구성되었습니다. 61.44TB Solidigm D5-P5336의 경우 각 패스에는 33개의 체크포인트 간격이 포함되어 총 54TB였습니다. 더 작은 7.68TB D7-PS1010은 3개의 체크포인트 간격을 편안하게 수용했으며, 총 용량은 4.9TB였습니다. D7-PS1010에 추가 체크포인트 하나를 더 수용할 수 있었지만, 활용도가 약간 더 높아졌습니다.
DLIO 체크포인트 워크로드는 Gen4 QLC 기반 61.44TB D5-P5536과 Gen5 TLC 기반 7.68TB D7-PS1010을 비교했을 때 흥미로운 결과를 가져왔습니다. 첫 번째 패스에서 드라이브가 채워짐에 따라 두 SSD 모델 간의 성능 격차가 더 벌어졌습니다. 더 빠른 Gen5 PS1010은 각 체크포인트를 평균 464초에 완료한 반면, Gen4 P5336은 623초가 걸렸습니다. 두 번째 및 세 번째 패스에서는 격차가 좁혀져 PS1010의 경우 579초와 587초, P5336의 경우 676초와 680초가 되었습니다.
체크포인팅 간격을 가능한 한 작게 유지하려는 비즈니스의 경우 TLC 기반 Gen5 PS1010이 가장 빠른 완료 시간에서 이점을 제공합니다. 많은 체크포인트를 비용 효율적으로 유지하는 것이 목표라면 QLC 기반 Gen4 P5336이 이를 수행할 수 있습니다. 두 드라이브 간의 두 번째 및 세 번째 패스에서 평균 체크포인트 시간 차이는 17% 미만이었습니다.
GPUDirect 스토리지 대역폭
DLIO는 AI 워크플로우에서 플래시 성능을 보여주지만, 워크로드는 체크포인트가 복원될 때까지 전적으로 쓰기 기반입니다. AI 워크로드에서 Solidigm D7-PS1010 및 D5-P5336의 전체 그림을 제공하기 위해 GDSIO를 사용하여 읽기 대역폭 측정을 포함했습니다.
GPU Direct 스토리지 작동 방식
전통적으로 GPU가 NVMe 드라이브에 저장된 데이터를 처리할 때 데이터는 GPU에 도달하기 전에 먼저 CPU와 시스템 메모리를 거쳐야 합니다. 이 프로세스는 CPU가 중간자 역할을 하여 지연 시간을 추가하고 귀중한 시스템 리소스를 소비하므로 병목 현상을 유발합니다. GPU Direct Storage는 GPU가 PCIe 버스를 통해 스토리지 장치에서 직접 데이터에 액세스할 수 있도록 하여 이러한 비효율성을 제거합니다. 이 직접 경로는 데이터 이동과 관련된 오버헤드를 줄여 더 빠르고 효율적인 데이터 전송을 가능하게 합니다.
특히 딥러닝과 관련된 AI 워크로드는 데이터 집약적입니다. 대규모 신경망을 학습하려면 테라바이트의 데이터를 처리해야 하며, 데이터 전송의 지연은 GPU 활용도를 낮추고 학습 시간을 늘릴 수 있습니다. GPU Direct Storage는 데이터가 가능한 한 빨리 GPU에 전달되도록 하여 유휴 시간을 최소화하고 컴퓨팅 효율성을 극대화함으로써 이러한 문제를 해결합니다.
DLIO 테스트와 마찬가지로 고속 Gen5 SSD와 고용량 QLC 드라이브 간의 차이를 더 잘 이해하고 특성화하는 것이 목표입니다. 모든 AI 워크로드가 동일한 것은 아니며, 각 드라이브는 요구 사항에 따라 고유한 이점을 제공합니다.
테스트 구성 매트릭스
NVIDIA L4를 테스트 플랫폼에서 사용하여 다음 매개변수의 모든 조합을 체계적으로 테스트했습니다:
- 블록 크기: 1M, 128K, 64K, 16K, 8K
- 스레드 수: 128, 64, 32, 16, 8, 4, 1
- 작업 수: 16
- 배치 크기: 16
첫 번째로 QLC 기반 D5-P5336을 살펴보았는데, 128의 IO 깊이에서 1M 전송 크기를 사용하여 최대 4.2GiB/s를 기록했습니다. 블록 크기의 효과는 8K에서 1M으로 이동하면서 대역폭을 크게 향상시켰습니다. IO 깊이가 증가함에 따라 32에서 워크로드가 안정되기 시작하면서 이점이 줄어들기 시작했습니다.
다음으로 Gen5 PS-1010을 살펴보겠습니다. 이 드라이브는 1M 블록 크기와 128의 IO 깊이에서 최대 6.2GiB/s까지 확장할 수 있습니다. 전반적으로 Gen4 기반 P5336보다 뛰어난 성능을 보였으며, 특히 특정 워크로드에서는 상당한 향상을 보였습니다. 주목할 만한 개선 영역 중 하나는 128K 블록 크기였으며, 여기서 64 및 128의 IO 깊이에서 PS1010은 P5336의 읽기 대역폭의 두 배를 제공했습니다.
두 SSD 모두 NVIDIA L4를 사용하여 테스트되었다는 점에 유의해야 합니다. Gen4 D5-P5336은 최고 성능에 가깝거나 최고 성능을 내고 있지만, H100과 같은 상위 모델 NVIDIA GPU는 D7-PS1010에서 더 높은 성능을 보였습니다. 드라이브의 속도는 일부 고객에게는 궁극적인 결정 요인이지만, 다른 고객은 전반적인 밀도를 우선시합니다.Solidigm 는 솔루션을 제공합니다 QLC 및 TLC SSD 제품군 모두에 대해.결론
AI 학습의 규모와 복잡성이 계속해서 급증함에 따라 기본 스토리지 인프라는 속도를 따라잡을 뿐만 아니라 템포를 설정해야 합니다. 두 가지 매우 다른 SSD에 대한 테스트는 스토리지 솔루션을 특정 학습 우선 순위에 맞추는 것의 중요성을 강조합니다. 즉, 체크포인트 지연 시간을 최소화하거나 비용 효율적인 확장성을 위해 체크포인트 밀도를 최대화하는 것입니다.
평가에서 우리는 현실적인 AI 학습 조건에서 Solidigm D5-P5336(61.44TB) 및 D7-PS1010(7.68TB)을 테스트했으며, DLIO 벤치마크와 광범위한 하이브리드 병렬 LLM 체크포인팅 워크플로우를 활용했습니다. 드라이브가 채워짐에 따라 여러 테스트 실행에 걸쳐 체크포인트 쓰기 성능을 반영하는 메트릭을 캡처했으며, Gen4 QLC 기반 D5-P5336과 Gen5 TLC 기반 D7-PS1010 간의 완료 시간 성능 차이를 강조했습니다.
D7-PS1010은 가능한 가장 빠른 체크포인트 쓰기를 제공했지만, D5-P5336은 약간의 성능 저하만으로도 매력적인 비용 효율성과 용량 이점을 보여주었습니다. 또한 NVIDIA L4 GPU를 사용하여 GDSIO로 GPU Direct Storage(GDS) 읽기 대역폭을 추가로 조사했습니다. Solidigm D5-P5336은 1M 전송 크기로 최대 4.2GiB/s의 읽기 대역폭을 제공했으며, D7-PS1010은 6.2GiB/s로 상당한 향상을 제공했습니다. NVIDIA L40s 또는 H100/H200과 같은 더 강력한 GPU를 활용하면 성능이 더욱 향상될 것입니다.
앞으로 Solidigm D5-P5336 122TB SSD의 전례 없는 용량은 AI 학습 및 배포를 재편할 것입니다. 모델 크기와 체크포인팅 요구 사항이 계속 증가함에 따라 이러한 고용량 드라이브는 새로운 수준의 효율성과 유연성을 제공하여 이전에는 달성할 수 없었던 학습 전략을 가능하게 합니다. 고용량 SSD 솔루션 분야의 Solidigm의 리더십은 조직이 더 적은 드라이브에 더 많은 데이터와 체크포인트를 저장할 수 있도록 지원하며, 차세대 AI 복잡성에 대비하여 인프라를 미래에 대비할 수 있도록 돕습니다.
베이징 첸싱 지에통 기술 유한 회사
Sandy Yang/글로벌 전략 이사
WhatsApp / WeChat: +86 13426366826
이메일: yangyd@qianxingdata.com
웹사이트: www.qianxingdata.com/www.storagesserver.com
비즈니스 초점:
ICT 제품 유통/시스템 통합 및 서비스/인프라 솔루션
20년 이상의 IT 유통 경험을 바탕으로 선도적인 글로벌 브랜드와 협력하여 신뢰할 수 있는 제품과 전문 서비스를 제공합니다.
"기술을 사용하여 지능형 세계를 구축하십시오" 귀하의 신뢰할 수 있는 ICT 제품 서비스 제공업체!