Azure Linux RDMA セットアップのヒント

ライアンブログ2-2
昨年の Microsoft の Azure Linux RDMA サポートの発表は、密結合された HPC ワークロードをクラウドで実行したいと考えているユーザーにとって素晴らしいニュースでした。 残念ながら、その設定方法を説明したドキュメントはまだ多くありません。 これ チュートリアル Azure Linux RDMA を構成するための主な情報源と思われます。 ただし、そこにはいくつかの省略があり、クラスターを初めてセットアップするときにつまずく可能性があります。 この投稿では、遭遇する可能性のあるいくつかの問題といくつかの回避策について説明します。
まず、このチュートリアルでは、仮想マシンのデプロイに古い ASM モデルを使用します。 Microsoft では、新しいプロジェクトの展開に ARM を使用することをお勧めします。 切り替えの大きな理由の XNUMX つは、ARM デプロイでは仮想マシンが並列にプロビジョニングされるのに対し、ASM では仮想マシンが逐次的にデプロイされることです。 大規模なクラスターの場合、これにより起動時間に大きな違いが生じる可能性があります。 この は、推奨されるバニラ SLES 12 HPC VHD を使用してスタンドアロン MPI クラスターを起動する開始点として使用できるシンプルな ARM テンプレートです。
クラスターが起動したら、git などの一般的なパッケージをインストールすることになるでしょう。
しかし:
# zypper インストール git
リポジトリ データをロードしています…
インストールされているパッケージを読み取り中…
パッケージ名に「git」が見つかりません。 機能を試しています。
「git」のプロバイダーが見つかりません。
パッケージの依存関係を解決しています…

何もすることはありません。
その理由は、バニラの SLES VHD には、初期状態では大量のリポジトリが欠落しているためです。 次のコマンドを実行すると、それらを再度追加できます。
# cd /etc/zypp/repos.d
# mv sldp-msft.repo sldp-msft.repo.bak
# rm -f *.repo
# systemctl ゲストレジスタ.サービスを再起動します
# mv sldp-msft.repo.bak sldp-msft.repo
# zypper addrepo sldp-msft.repo
# ジッパーリフレッシュ

これで、より広範囲のパッケージにアクセスしてインストールできるようになります。 チュートリアル ガイドで説明されているように、カスタム パッケージをインストールし、Intel MPI もセットアップした後、カスタム VHD をキャプチャし、代わりにそれを MPI クラスターの開始点として使用できます。
カスタム VHD を使用してクラスターを起動したら、RDMA ドライバーを更新する VM 拡張機能のインストールが必要になる場合があります。 チュートリアルには、米国西部、西ヨーロッパ、および東日本の各リージョンでは RDMA ドライバーを更新しないでくださいと記載されています。 ただし、これらのリージョンでインテル MPI ピンポン テストを実行しようとしたときに、説明されているのと同じ DAPL エラーが発生したため、これは古い通知であるようです。 こちら。 ドライバーを更新した後、ピンポン テストはエラーなしで動作し始めました。
OSTC 拡張機能のインストールに関しては、注意する必要がある小さな問題が XNUMX つあります。拡張機能のインストール直後に VM に SSH 接続すると、ログイン直後に接続が切断されることに気づくでしょう。
azureadmin@n1:~> 13.93.144.56 への接続がリモート ホストによって閉じられました。
13.93.144.56 への接続が閉じられました。

この理由は、VM が約 2 ~ 3 分で再起動されるためです。 After 拡張機能のデプロイが完了します。 拡張機能のインストールが完了したときに VM が使用できる状態になっていれば良いのですが、残念ながら、ここではそうではないようです。 クラスターのデプロイメントを自動化しようとしている場合、これを考慮する必要があります。
Azure Linux RDMA サポートが Azure Batch サービスに追加されたら、上記のいずれにも対処する必要がなくなることを願っています。 もちろん、クラスターの起動は出発点にすぎません。 シミュレーション ソフトウェアをインストールして調整し、ライセンス サーバーへの接続をセットアップし、入出力ファイルをクラスターとの間で安全に転送する必要があります。 Rescale のサポート チームは、Web、API、または CLI ツールを使用して、Azure 上でこれを実現するためにお客様と協力する準備ができています。

類似の投稿