パブリック クラウド MPI ネットワーク ベンチマークのまとめ
私たちは長年にわたり、主要なパブリック クラウド プロバイダーが提供するサービスに対して MPI マイクロベンチマークを実行するブログ投稿を数多く投稿してきました。 これらのプロバイダーはすべて、この間にネットワークの改善を数多く行ってきたため、最新世代の VM に対してこれらのマイクロベンチマークを再実行することが有益であると考えました。 特に、AWS は最大 20Gbps をサポートする「拡張ネットワーキング」の新バージョンをリリースし、Azure は仮想化 FDR InfiniBand を提供する VM の H シリーズ ファミリをリリースしました。
私の同僚の Irwen は最近、Google Compute Engine のさまざまな VM タイプに対して、OSU Microbenchmarks ライブラリ (バージョン 5.3.2) のポイントツーポイント レイテンシ (osu_latency) とバイセクション帯域幅 (osu_bibw) のテストを実行しました。 一貫性を保つために、ここでは Azure と AWS で同じライブラリを使用します。 以下の表には、Irwen の投稿から最高のパフォーマンスを発揮するマシン、n1-highmem-32 が含まれています。 c4.8xlarge は、前世代の拡張ネットワーキングの AWS VM タイプを表し、新しい m4.32xlarge VM は新しいバージョンの拡張ネットワーキングを実行しています。
以下の表に、3 回の試験の平均結果を示します。 トライアルごとに、新しい VM のペアが最初からプロビジョニングされました。
0 バイトのレイテンシ (us) | 1MB の二分帯域幅 (MB/秒) | |
GCE (n1-highmem-32) | 41.04 | 1076 |
AWS (c4.8xlarge) | 37.07 | 1176 |
AWS (m4.32xlarge) | 32.43 | 1152 |
アズール(H16r) | 2.63 | 10807 |
ご想像のとおり、これらのテストでは、Azure H シリーズ VM が InfiniBand を搭載していない競合製品を大幅に上回っています。 HPC にパブリック クラウドを使用することに対してよく寄せられる批判の XNUMX つは、ネットワークのパフォーマンスが密結合されたワークロードを実行するタスクに達していないということです。 Microsoft の Azure は、仮想化された高性能ネットワーク ファブリックをハイパースケールで実行できることを示しました。
そうは言っても、これは生のネットワーク パフォーマンスの観点からは興味深いものではありますが、このような合成ベンチマークにあまりにも多くの株式を投入しないようにすることが重要です。 一般に、アプリケーション ベンチマークは、現実世界のパフォーマンスをよりよく表しています。 仮想化 10GigE を備えた一部の CFD ソルバーを使用して強力なスケーリングを実現することは確かに可能です。 AWS には 公表 STAR-CCM + ベンチマークは、16M セル モデルで最大 700 MPI プロセスの実行で線形に近いスケーリングを示しています。 マイクロソフトも 公表 一部の STAR-CCM+ ベンチマークは、旧世代の InfiniBand 搭載 VM で最大 1,024 MPI プロセスで線形に近いスケーリングを示しています (Microsoft はテストでより大きな 100 億セル モデルを使用したため、これは同一の比較ではないことに注意してください)。 特殊なネットワーク ファブリックは通常、価格が高いことを強調することも重要です。 さらに、ネットワーク速度はパフォーマンスの XNUMX つの側面にすぎないことに留意してください。 どのハードウェア プロファイルを使用するかを決定する際には、ディスク IO、RAM、CPU コア数、世代、シミュレーションの種類、モデル サイズをすべて考慮する必要があります。 Rescale のようなマルチクラウド プラットフォームを使用する利点の XNUMX つは、 ScaleX プラットフォーム ベンチマークの実行が簡単になること、さらに、 エンタープライズ HPC ジョブ送信リクエストのコア タイプを変更するだけで、さまざまなハードウェア構成にまたがるワークロードを実現できます。
最後に、物事がオリジナルからどれほど離れているかに注目するのは印象的です マゼラン 報告。 現在、パブリック クラウドの有力企業間で激しい戦いが起こっており、高性能インターコネクトだけでなく、最新の CPU 世代 (Skylake) や GPU と FPGA の可用性を大規模に含めたハードウェア リフレッシュ サイクルが見られ始めています。 「コモディティ」パブリック クラウドは、ますます多くの HPC ワークロードに対応できるようになっています。