軽量のAzure Infiniband Clusterセットアップ-Pearse

クラウドでHPCに対して平準化された重要な批判のXNUMXつは、オンプレミスクラスターと比較した場合、ノード間の比較的遅い相互接続速度です。多くのニッチプロバイダーがこのギャップに対処するためのインフィニバンド接続を提供していますが、マイクロソフトはこのタイプの高帯域幅、低遅延の相互接続を新しいものと提供する最初の主要プロバイダーですビッグコンピューティング解決。大規模なデータセンターを管理しながら、企業がワークロードをクラウドに移行するために必要なセキュリティコンプライアンスの問題や認証にも対処できるリソースを備えている企業は比較的少ないため、これは興味深いニュースです。公正かどうかにかかわらず、Microsoft、Amazon、またはGoogleの支援を受けることで、企業のITバイインを取得することに大きな違いが生じる可能性があります。

によるスペック、新しい A8 および A9 インスタンスサイズは、RDMA による InfiniBand 接続を提供します。この最後のビットは、特に重要ですこのブログ記事正しく指摘されていますが、InfiniBand だけでは十分ではありません。使用されているトランスポートによって重大な違いが生じ、TCP のパフォーマンスは非常に低下します。 Microsoft によると、Big Compute インスタンスは、ベアメタルに近いパフォーマンスを提供する仮想化 RDMA をサポートしています。この発表は、クラウドで密結合シミュレーションを実行したいと考えているユーザーにとっては恩恵となるはずです。このタイプの「おしゃべりな」MPI アプリケーションは、基盤となるネットワークの遅延の影響を非常に受けやすくなります。しかし、プラットフォームを試してみると、現在のプラットフォームには参入障壁がいくつかあると思います。
まず、RDMA機能は、MS-MPI – MicrosoftのMPI実装によってのみサポートされているNetwork Directというインターフェイスを介して公開されます。これらのライブラリに対してアプリケーションを再コンパイルする必要があります。 MPIは明確に定義された標準であり、MS-MPIはMPICHに基づいているため、これはそれほど大きくはありません。これは広くサポートされています。ただし、より大きな問題は、Windowsで実行するにはアプリケーションを書き込む必要があることです。ありがたいことに、今日使用されている人気のあるエンジニアリングアプリケーションの多くには、MS-MPIをサポートするWindowsバージョンが既にあります。少なくとも逸話的には、アプリケーションをで再コンパイルできるようです少ない労力.
第 XNUMX に、MPI クラスターの構成は、Windows の世界と Linux の世界では大きく異なります。 Windows は確かに素晴らしいパフォーマンスを発揮することができますが、 MPIベンチマーク数字では、HPC開業医の大部分が現在Linuxで実行されています。 Linux用のクラウド内のMPIクラスターの構成は、通常、次のように要約します。「インスタンスを起動し、パッケージマネージャーを使用して選択のMPIフレーバーをインストールし、クラスター内のすべてのノードにパスワードレスSSHを設定し、MachineFileを作成します」。 Windowsでは、推奨されるアプローチは、WindowsサーバーボックスにHPCパックをインストールして構成することです（前提またはクラウド内）。これは、Linuxに精通している人にとって困難であり、Windows Server管理のニュアンスに精通していません。 HPCパックソリューションは堅牢でフル機能がありますが、いくつかのベンチマークや単純なXNUMX回限りのシミュレーションを実行したい場合、少しヘビー級を感じます。いいことは、ようなツールですスタークラスター Active Directoryを構成することなく、できるだけ早く人々を育てて実行するには、SQL Serverをインストールするか、PowerShellとREST APIを把握します。
HPCパックなしでAzureにMS-MPIをインストールできることがわかりますが、これを行う方法については多くのガイダンスがあるようには見えません。さらに、Windows に移植された SSH サーバーと UNIX ユーティリティが多数あります。別のHPCパックインスタンスをインストール、構成、および管理することなく、WindowsでMPIクラスターを起動する簡単な方法が必要でした。最終的に実験したのは、PAASオファーを使用して、各ノードで次の操作を実行するために一連の起動タスクを含むクラウドサービスを展開することでした。

MS-MPI をインストールします (スタンドアロンインストーラーが利用可能です) ここ)
SMPDを起動します
OpenSSHサーバーとUNIXコマンドラインユーティリティの標準セットをインストールして構成する

各クラウドサービスには、単一の仮想IP（VIP）が割り当てられています。これを回避するために、インスタンス内部エンドポイントを使用して、ユーザーが異なるポートを使用して個々のノードにSSHをsshできるようにしました。内部エンドポイントが開かれ、各ロールインスタンスが他のロールインスタンスで実行されている SMPD デーモンに接続できるようになります。これらすべての最終結果は、展開が簡単な .cspkg ファイルとそれに付随する構成 XML です。ユーザーは SSH でロールインスタンスに接続し、使い慣れた UNIX コマンドを使用できます。

2 A9インスタンスに対していくつかのレイテンシと帯域幅のベンチマークを実行したかったのです。まず、OSU Microbenchmark ライブラリの osu_latency ベンチマークと osu_bibw ベンチマークを MS-MPI に対して再コンパイルしました。次に、上記のクラウドサービスを展開し、SCPを使用して各マシンにベンチマーク実行可能ファイルをコピーしました（移動する必要がある大きなファイルがある場合、SCPは実行可能なソリューションではないことに注意してください。。最後に、ノードの XNUMX つに SSH 接続して、実行可能ファイルを起動しました。

ベンチマークの結果は以下にあります。ご覧のとおり、0バイトのレイテンシ数は〜3USであり、より大きなメッセージサイズのための双方向の帯域幅テストで〜7.5GB/sが転送されています。これは完全な飽和にかなり近いものです。

# OSU MPI Latency Test # Size Latency (us) 0 3.28 1 3.69 2 3.70 4 3.67 8 3.69 16 4.11 32 4.53 64 5.35 128 6.60 256 2.85 512 3.06 1024 3.44 2048 4.19 4096 5.96 8192 7.60 16384 10.64 32768 15.31 65536 23.32 131072 53.65 262144 85.02 524288 156.81 1048576 299.23 2097152 567.89 4194304 1098.55 # OSU MPI Bi-Directional Bandwidth Test # Size Bi-Bandwidth (MB/s) 1 0.43 2 0.87 4 1.69 8 3.35 16 6.82 32 13.69 64 18.64 128 29.12 256 486.75 512 1174.69 1024 2170.21 2048 3844.66 4096 5982.22 8192 2873.87 16384 7078.87 32768 6669.85 65536 4926.26 131072 4878.30 262144 5853.30 524288 6674.26 1048576 7066.08 2097152 7344.74 4194304 7479.30
これらは非常に印象的なパフォーマンス数です。しかし、大規模な計算使用のための実際の転換点は、MicrosoftがIAASソリューションでLinux VMのサポートを追加すると、一度になると思われます。オンラインで入手できるドキュメントから、このためのタイムラインが現在何であるかは明らかではありません（Windows ServerのIAASサポートは最近追加されました）。 2014 年に新たな低遅延相互接続戦争がどのように展開するかは興味深いところです。いつものように、Rescale はプロバイダーにとらわれず、顧客に入手可能な最高のハードウェアを提供するつもりです。

ライアン・カネシロ

すべての投稿を見る

クッキー	演奏時間	説明
AWSALBCORS	7日	このCookieはアマゾンウェブサービスによって管理され、負荷分散に使用されます。
cookielawinfo-チェックボックス-広告	1年	GDPR Cookie Consentプラグインによって設定されたこのCookieは、「広告」カテゴリのCookieに対するユーザーの同意を記録するために使用されます。
cookielawinfo-チェックボックス-分析	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「分析」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-機能	11か月間	Cookieは、「機能」カテゴリのCookieに対するユーザーの同意を記録するためにGDPRCookieの同意によって設定されます。
cookielawinfo-checkbox-Necessary	11か月間	このCookieはGDPR Cookie Consentプラグインによって設定されます。 Cookieは、「必要」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-その他	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「その他」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-パフォーマンス	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「パフォーマンス」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
visible_cookie_policy	11か月間	CookieはGDPR Cookie Consentプラグインによって設定され、ユーザーがCookieの使用に同意したかどうかを保存するために使用されます。個人データは保存されません。

クッキー	演奏時間	説明
__cf_bm	30 minutes	Cloudflareによって設定されたこのCookieは、Cloudflareボット管理をサポートするために使用されます。
クッキー	2年	LinkedInは、ブラウザIDを認識するために、LinkedInの共有ボタンと広告タグからこのCookieを設定します。
長い	セッション	LinkedInは、ユーザーの言語設定を記憶するようにこのCookieを設定します。
LIDC	1日	LinkedInは、データセンターの選択を容易にするためにlidccookieを設定します。
プレイヤー	1年	Vimeo は、この Cookie を使用して、Vimeo から埋め込みビデオを再生するときにユーザーの設定を保存します。

クッキー	演奏時間	説明
AWSALB	7日	AWSALBは、セッションをターゲットにマッピングするためにアマゾンウェブサービスによって設定されるアプリケーションロードバランサーCookieです。
同期アクティブ	決して	この Cookie は Vimeo によって設定され、訪問者のビデオコンテンツの好みに関するデータが含まれているため、Web サイトは好みの音量やビデオ品質などのパラメータを記憶します。

クッキー	演奏時間	説明
_ga	2年	GoogleAnalyticsによってインストールされた_gacookieは、訪問者、セッション、およびキャンペーンデータを計算し、サイトの分析レポートのサイト使用状況を追跡します。 Cookieは情報を匿名で保存し、ランダムに生成された番号を割り当てて、一意の訪問者を認識します。
_gat_UA-32985745-1	1 minute	ウェブサイトの所有者が訪問者の行動を追跡し、サイトのパフォーマンスを測定できるようにするために、GoogleAnalyticsとGoogleTagManagerによって設定された_gatcookieのバリエーション。名前のpattern要素には、関連するアカウントまたはWebサイトの一意のID番号が含まれています。
_gcl_au	3か月間	Google Tag Managerによって提供され、サービスを使用するWebサイトの広告効率を実験します。
_gid	1日	GoogleAnalyticsによってインストールされた_gidcookieは、訪問者がWebサイトをどのように使用しているかに関する情報を格納すると同時に、Webサイトのパフォーマンスの分析レポートを作成します。収集されるデータには、訪問者の数、ソース、匿名でアクセスするページなどがあります。
同意	2年	YouTubeは、埋め込まれたyoutube-videosを介してこのCookieを設定し、匿名の統計データを登録します。
utm_キャンペーン	過去	Google 広告サービスは、セッションキャンペーン値が存在する場合、この Cookie を設定して保存します。
utm_content	過去	この Cookie は、セッションコンテンツの値を保存するために使用されます (存在する場合)。
utm_source	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
utm_term	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
vuid	2年	VimeoはこのCookieをインストールして、Webサイトにビデオを埋め込むための一意のIDを設定することにより、追跡情報を収集します。

クッキー	演奏時間	説明
_fbp	3か月間	このCookieは、Webサイトにアクセスした後、FacebookまたはFacebook広告を利用したデジタルプラットフォームのいずれかで広告を表示するようにFacebookによって設定されます。
_mkto_trk	2年	Marketo によって提供されるこの Cookie には、ユーザーのサイトの使用状況を追跡するために使用される情報 (一意のユーザー ID など) が含まれています。 Marketo によって設定された Cookie は、Marketo によってのみ読み取り可能です。
fr	3か月間	Facebookは、FacebookピクセルまたはFacebookソーシャルプラグインを備えたサイトで、Web全体のユーザーの行動を追跡することにより、ユーザーに関連する広告を表示するようにこのCookieを設定します。
IDE	1年24日	Google DoubleClick IDE Cookieは、ユーザーがWebサイトを使用して関連する広告を表示する方法に関する情報を、ユーザープロファイルに従って保存するために使用されます。
Personalization_id	2年	Twitter は、ソーシャルメディアの機能を統合および共有するためにこの Cookie を設定し、追跡とターゲティングのためにユーザーが Web サイトをどのように使用するかに関する情報も保存します。
test_cookie	15 minutes	test_cookieはdoubleclick.netによって設定され、ユーザーのブラウザがCookieをサポートしているかどうかを判断するために使用されます。
utm_medium	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
VISITOR_INFO1_LIVE	5月27日	ユーザーが新しいプレーヤーインターフェースを取得するか古いプレーヤーインターフェースを取得するかを決定する帯域幅を測定するためにYouTubeによって設定されるCookie。
YSC	セッション	YSC CookieはYoutubeによって設定され、Youtubeページに埋め込まれたビデオのビューを追跡するために使用されます。
yt-リモート接続デバイス	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt-リモートデバイスID	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt.innertube :: nextId	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。
yt.innertube ::リクエスト	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。

クッキー	演奏時間	説明
_chtbl	セッション	説明はありません。
_dtses	30 minutes	説明はありません。
_dtuid	10年	説明はありません。
BIGipServersj30web-nginx-app_https	セッション	全く説明しない
email	過去	説明はありません。
gclid	過去	全く説明しない
ハンドル ip	1月	説明はありません。
handle_landing_page	1月	説明はありません。
handle_original_ref	過去	説明はありません。
ハンドル参照	過去	説明はありません。
handle_url	1月	説明はありません。
li_gc	2年	全く説明しない
muc_ads	2年	全く説明しない
ユーザ名	過去	説明はありません。

Rescale プラットホーム

概要

HPC & AI ソフトウェア

HPC & AI アーキテクチャ

セキュリティ&コンプライアンス

エコシステム統合

価格（英語）

HPC as a Service

インテリジェントバッチ

エラスティック・クラウド・ワークステーション

ストレージ・ファブリック

エンタープライズ管理

チーム管理

パフォーマンス管理

持ち込みソフトウェアをクラウドで利用

デジタルエンジニアリング

AI の物理学

データ管理

計算パイプライン

著者

類似の投稿

ニュースレターの申込み