퍼블릭 클라우드 MPI 네트워크 벤치마크 정리

서버 이미지

우리는 주요 퍼블릭 클라우드 제공업체의 제품에 대해 일부 MPI 마이크로벤치마크를 실행한 여러 블로그 게시물을 수년 동안 작성했습니다. 이러한 모든 공급자는 이 기간 동안 여러 가지 네트워킹 개선을 이루었으므로 최신 세대의 VM에 대해 이러한 마이크로벤치마크를 다시 실행하는 것이 유용할 것이라고 생각했습니다. 특히 AWS는 최대 20Gbps를 지원하는 '향상된 네트워킹' 새 버전을 출시했고, Azure는 가상화된 FDR InfiniBand를 제공하는 H 시리즈 VM 제품군을 출시했습니다.

제 동료 Irwen은 최근 Google Compute Engine의 다양한 VM 유형에 대해 OSU Microbenchmarks 라이브러리(버전 5.3.2)에서 지점 간 대기 시간(osu_latency) 및 이분 대역폭(osu_bibw) 테스트를 실행했습니다. 일관성을 위해 여기에서는 Azure 및 AWS와 동일한 라이브러리를 사용합니다. 아래 표에는 Irwen의 게시물에서 가장 성능이 좋은 머신인 n1-highmem-32가 포함되어 있습니다. c4.8xlarge는 이전 향상된 네트워킹 세대의 AWS VM 유형을 나타내며 최신 m4.32xlarge VM은 최신 버전의 향상된 네트워킹을 실행합니다.

아래 표에는 3번의 시도에 대한 평균 결과가 나열되어 있습니다. 각 평가판마다 새로운 VM 쌍이 처음부터 프로비저닝되었습니다.

0바이트 지연 시간(us) 1MB 이등분 대역폭(MB/s)
GCE(n1-highmem-32) 41.04 1076
AWS(c4.8xlarge) 37.07 1176
AWS(m4.32xlarge) 32.43 1152
아주르(H16r) 2.63 10807

예상할 수 있듯이 Azure H 시리즈 VM은 이 테스트에서 InfiniBand가 장착되지 않은 경쟁 제품보다 훨씬 앞서 있습니다. HPC에 퍼블릭 클라우드를 사용하는 것에 대해 자주 제기되는 비판 중 하나는 네트워킹 성능이 긴밀하게 결합된 워크로드를 실행하는 작업에 미치지 못한다는 것입니다. Microsoft의 Azure는 하이퍼스케일에서 가상화된 고성능 네트워킹 패브릭을 실행할 수 있음을 보여주었습니다.

즉, 이는 원시 네트워킹 성능 관점에서 보면 흥미롭지만 이와 같은 합성 벤치마크에 너무 많은 주식을 투자하지 않는 것이 중요합니다. 애플리케이션 벤치마크는 일반적으로 실제 성능을 훨씬 더 잘 표현합니다. 가상화된 10GigE를 사용하는 일부 CFD 솔버를 사용하면 강력한 확장을 달성하는 것이 확실히 가능합니다. AWS는 출판 STAR-CCM + 최대 16개의 MPI 프로세스를 실행하는 700M 셀 모델에서 선형 확장에 가까운 것을 보여주는 벤치마크입니다. Microsoft는 또한 출판 일부 STAR-CCM+ 벤치마크는 이전 세대의 InfiniBand 장착 VM을 사용하여 최대 1,024 MPI 프로세스에서 선형 확장에 가까운 것을 보여줍니다(Microsoft가 테스트에서 더 큰 100억 셀 모델을 사용했기 때문에 이것은 사과 대 사과 비교가 아닙니다). 또한 특수 네트워킹 패브릭은 일반적으로 더 높은 가격에 제공된다는 점을 강조하는 것도 중요합니다. 또한 네트워크 속도는 성능의 한 차원일 뿐이라는 점을 명심하십시오. 사용할 하드웨어 프로필을 결정할 때 디스크 IO, RAM, CPU 코어 수, 세대, 시뮬레이션 유형, 모델 크기 등을 모두 고려해야 합니다. Rescale과 같은 멀티클라우드 플랫폼을 사용하는 장점 중 하나 ScaleX 플랫폼 벤치마크를 쉽게 실행할 수 있다는 것입니다. 엔터프라이즈 HPC 작업 제출 요청에서 핵심 유형만 변경하면 다양한 하드웨어 구성에 걸쳐 워크로드를 처리할 수 있습니다.

마지막으로 원작과 얼마나 많이 달라졌는지도 인상적이다. 마젤란 보고서. 현재 퍼블릭 클라우드 강자들 사이에 치열한 경쟁이 벌어지고 있으며, 고성능 상호 연결뿐만 아니라 최신 CPU 세대(Skylake), 대규모 GPU 및 FPGA 가용성을 포함한 하드웨어 갱신 주기가 보이기 시작했습니다. "상용" 퍼블릭 클라우드는 점점 더 많은 HPC 워크로드를 처리할 수 있는 가능성이 점점 더 커지고 있습니다.