HPC バッチジョブを実行するためのベストプラクティス

HPC バッチジョブとは何か、一般的な IT バッチジョブとの違い、HPC クラスターを実行するためのハードウェアインフラストラクチャとネットワークファブリックを設定する際の重要な考慮事項を理解します。

By マーク·ホイットニー 2023 年 8 月 21 日2024 年 3 月 14 日

Rescale のエンジニアリングチームは、管理の複雑さを解決することに専念しています。高性能コンピューティングこの時代の (HPC) システムハイブリッドおよびマルチクラウドコンピューティング.

研究開発向け HPC の基本は、デジタルシミュレーションやその他の種類の分析を実行するためのコンピューティングジョブを作成することです。したがって、Rescale エンジニアリングチームが重点を置く重要な領域は、シミュレーションジョブやその他の大規模なコンピューティングタスクを正常にセットアップするために必要なタスクの多くを自動化することです。

この XNUMX 部構成のブログ投稿シリーズでは、使用するツールやインフラストラクチャ (オンプレミスまたはクラウド) に関係なく、HPC バッチジョブを実行するためのコンピューティング環境の構成とその他の管理上の考慮事項について重要な側面を説明します。

この最初の投稿では、HPC バッチジョブとは何か、一般的な IT バッチジョブとの違い、およびセットアップの考慮事項を定義することから始めます。ハードウェアインフラストラクチャ HPC クラスターを実行するためのネットワークファブリック。

HPC バッチコンピューティングの定義

HPC の世界では、バッチジョブとは、特定の種類の計算タスク (通常はデジタルシミュレーション用) を実行するソフトウェアアプリケーションを実行するハードウェアをセットアップすることです。

コンピューティング環境をセットアップしたら、「実行」をクリックすると、インフラストラクチャとソフトウェアにジョブを実行させることができます。 HPC ジョブが完了したら、研究者とエンジニアは結果を確認して分析を開始できます。

HPC バッチジョブ、コンピューティング環境を正しい方法でセットアップすることが重要です。 HPC ワークロードはコンピューティングニーズが大きく異なる可能性があるため、重要なパフォーマンスと信頼性を確保するようにインフラストラクチャを構成することが重要です。ソフトウェアまたはハードウェアの構成エラーが原因でシミュレーションが失敗したり、意図した結果が得られなかったりすると、さまざまな意味でコストがかかります。

これらのシミュレーションでは、多くの場合、長期間にわたって大量のコンピューターリソースを使用する必要があります。それは高価です。 XNUMX本だけ使いながら (スーパーコンピューティングクラスター内の 20 台のコンピューター) は珍しいことではありません。シミュレーションには 50 または XNUMX のノードが必要になることが多く、その数は数千ノードになることもあります。 CPUコア。これらのシミュレーションには XNUMX 分から XNUMX 週間以上かかる場合があります。非常に長いシミュレーションを数日または数週間にわたって実行しているお客様もいらっしゃいますが、HPC バッチジョブがデジタルシミュレーションを完了するのにかかる一般的な実行時間は XNUMX ～ XNUMX 時間です。

HPC バッチジョブ: 一般的な IT バッチジョブではありません

IT バッチジョブにはさまざまな種類がありますが、データベースの更新などの一般的なタスクについて話している場合、これらのバッチジョブは、ハードウェアから最高のパフォーマンスを引き出すというよりも、特定の時間に何かが確実に実行されるようにすることに重点を置いています。

一般的な IT バッチジョブの主な目標は、それを実行し、失敗せず、他の人の邪魔をしないことです。高速に実行できれば素晴らしいのですが、重要なのは、バッチジョブが他のタスクを妨げることなく処理にかかる時間を確保できる夜間のデータセンター時間を見つけることです。タスクは、ある時点で完了する必要があります。一般的な IT バッチジョブでは、速度は単純に重要な要素ではありません。

HPC バッチジョブでは、速度と効率がすべてです。独自のスーパーコンピューターを実行したり、クラウドでレンタルしたりするコストを考慮すると、クラウドでも独自のデータセンターでも、コンピューティングリソースが最適に調整されていることを確認する必要があります。

クラウドの制約のないリソースを使用しても、HPC バッチジョブが適切な方法で実行されることを確認するには、一般的な夜間のエンタープライズ IT バッチジョブと比較して、さらに多くの作業を行う必要があります。

HPC バッチジョブを設定する場合は、まず、最適なチップアーキテクチャと、それらのチップで利用可能な拡張機能を使用していることを確認する必要があります。 Intel チップまたは AMD チップの世代が異なると機能も異なるため、多くの場合、それらを活用するためにソフトウェアを構成してコンパイルする必要があります。

したがって、ハードウェアとソフトウェアの間には、考慮すべき重要なマッチングの問題があります。そして、これはますます困難になっています特殊な半導体チップの数が急速に拡大。ハードウェアとソフトウェアが適切に一致していると、コスト、速度、エネルギー消費に大きな影響を与える可能性があります。

バッチジョブの設定に関する重要な考慮事項

HPC バッチジョブが必要なパフォーマンスレベルで正常に実行されることを保証するという重要なニーズを考慮すると、実行するアプリケーションの種類に最適な適切なハードウェアが必要になります。シミュレーションアプリケーションが異なれば、要件も大きく異なります。メモリを大量に消費するものもあれば、CPU コンピューティングを非常に消費するものもあります。 GPU などの特殊用途の半導体チップを必要とするものもあります。

したがって、最初に行うことは、シミュレーションの実行に使用するハードウェアのタイプを決定することです。間違ったハードウェアに合わせて最適化すると、バッチジョブに大幅に、場合によっては XNUMX 桁も時間がかかる可能性があります。したがって、待機時間が長くなり、そのコンピューティング時間により多くの費用が費やされる可能性があります。

計算速度とソフトウェアのコストの間には、トレードオフを考慮する必要もあります。ライセンスはさまざまですが、研究開発で使用される高度で特殊なアプリケーションは通常、実行コストが高く、ライセンスコストは消費モデル (シミュレーションやその他の分析を実行するためにアプリケーションを使用するのに費やされる時間) に基づいています。

これを考慮すると、HPC バッチジョブの時間を短縮してソフトウェアコストを節約するには、より高速なコンピューティングリソースにより多くの資金を費やすことが有利になる可能性があります。多くの場合、ライセンスコストを最適化するために、最小限の時間 (または最小限の CPU コア時間) で実行するように最適化することが必要です。ライセンスコストは、アプリケーションや状況によってはハードウェアコストよりはるかに高額になることが多いためです。。

適切なネットワークファブリックの重要性

IT バッチジョブでは一般的ではないもう XNUMX つの複雑さの軸があります。それは、ネットワークファブリックと接続です。異なるコンピューティングクラスターには、すべてのノードを接続する異なるタイプのネットワークファブリックがあります。これは、標準的な IT コンピューティングジョブでは通常問題になりません。必要なのはいくつかのサーバーだけです。

Rescale のエンジニアリングチームが焦点を当てている大きな課題の XNUMX つは、ノード間通信がどのように機能するか、そしてそれが HPC アプリケーションのパフォーマンスにどのように影響するかということです。

通常、これらのジョブの多くは大規模なシミュレーションです。これらを複数のノードで実行する必要があります。また、これらのアプリケーションの多くは、ノード間のきめ細かい通信モデルを前提としています。

そのため、クラスターをセットアップしたり、通信ライブラリを最適に設定していない場合、シミュレーションの実行時間が大幅に長くなり、多くの非効率が生じる可能性があります。

多くの HPC アプリケーションでは、このきめ細かいマルチノード通信がすべて正常に機能するように、すべてのノード間の接続が非常に低遅延であることを確認する必要があります。

そして、そのノード間通信ネットワークを構築する方法はたくさんあります。高帯域幅イーサネットを使用することも、ほとんどのイーサネットオプションよりも遅延が低く、帯域幅が広い InfiniBand を使用することもできます。他にもいくつかのネットワークファブリックタイプがあります。

また、多くの HPC アプリケーションは、と呼ばれるライブラリ層を使用します。のMPI (メッセージパッシングインターフェイス)。ただし、MPI は単なる標準であり、ライブラリ自体ではありません。ベンダーと開発者は、MPI 標準に基づいて独自のライブラリを作成します。

したがって、使用している MPI の種類が、使用しているハードウェアの種類と適切に動作することを確認する必要があります。つまり、ハードウェアとシミュレーションアプリケーションを一致させるだけでなく、ハードウェアとミドルウェア層 (ライブラリ)、さらにアプリケーション自体を一致させる必要があります。

MPI は、特定のタイプのネットワークファブリックに合わせて構成する必要があります。また、構成のニーズはネットワークファブリックごとに大きく異なります。これは、単一のネットワークファブリックに対して一度設定すれば、あらゆるケースで適切に機能することが期待できるものではありません。調整しないとパフォーマンスに大きな差が生じます。

そしてそれはアプリケーションによって異なります。しかし、多くの HPC バッチジョブでは、シミュレーションを進めるためにさまざまなノード間でこの詳細な情報をすべて渡す必要があるため、コンピューティングよりもネットワークに依存することになります。次に、ノード間の通信をガイドするライブラリが正しい方法で設定されていることを確認する必要もあります。

HPC バッチジョブの場合、最終的な結果は常に同じです。HPC ワークロードに最適化されたハードウェアとソフトウェアのスタック全体がなければ、その高価なハードウェアとソフトウェアの利点をすべて享受することはできません。

これでこのシリーズの第 XNUMX 部は終了です。パート XNUMX では、ジョブのスケジュール設定、障害のある HPC ジョブのコスト、セキュリティ、マルチクラウド管理など、HPC バッチジョブを実行するための主要な問題について詳しく説明します。乞うご期待！

詳細については、こちらから Rescaleのインテリジェントバッチ機能
すべてのハイパフォーマンスコンピューティングジョブが確実に実行されるようにします。
高速、効率的、確実に実行するための正しい方法を設定します。

マーク·ホイットニー

Mark Whitney は、Rescale のエンジニアリングディレクターです。彼の専門分野には、ハイパフォーマンスコンピューティングアーキテクチャ、量子情報研究、クラウドコンピューティングが含まれます。彼はカリフォルニア大学バークレー校でコンピューターサイエンスの博士号を取得しています。

すべての投稿を見る

クッキー	演奏時間	説明
AWSALBCORS	7日	このCookieはアマゾンウェブサービスによって管理され、負荷分散に使用されます。
cookielawinfo-チェックボックス-広告	1年	GDPR Cookie Consentプラグインによって設定されたこのCookieは、「広告」カテゴリのCookieに対するユーザーの同意を記録するために使用されます。
cookielawinfo-チェックボックス-分析	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「分析」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-機能	11か月間	Cookieは、「機能」カテゴリのCookieに対するユーザーの同意を記録するためにGDPRCookieの同意によって設定されます。
cookielawinfo-checkbox-Necessary	11か月間	このCookieはGDPR Cookie Consentプラグインによって設定されます。 Cookieは、「必要」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-その他	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「その他」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-パフォーマンス	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「パフォーマンス」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
visible_cookie_policy	11か月間	CookieはGDPR Cookie Consentプラグインによって設定され、ユーザーがCookieの使用に同意したかどうかを保存するために使用されます。個人データは保存されません。

クッキー	演奏時間	説明
__cf_bm	30 minutes	Cloudflareによって設定されたこのCookieは、Cloudflareボット管理をサポートするために使用されます。
クッキー	2年	LinkedInは、ブラウザIDを認識するために、LinkedInの共有ボタンと広告タグからこのCookieを設定します。
長い	セッション	LinkedInは、ユーザーの言語設定を記憶するようにこのCookieを設定します。
LIDC	1日	LinkedInは、データセンターの選択を容易にするためにlidccookieを設定します。
プレイヤー	1年	Vimeo は、この Cookie を使用して、Vimeo から埋め込みビデオを再生するときにユーザーの設定を保存します。

クッキー	演奏時間	説明
AWSALB	7日	AWSALBは、セッションをターゲットにマッピングするためにアマゾンウェブサービスによって設定されるアプリケーションロードバランサーCookieです。
同期アクティブ	決して	この Cookie は Vimeo によって設定され、訪問者のビデオコンテンツの好みに関するデータが含まれているため、Web サイトは好みの音量やビデオ品質などのパラメータを記憶します。

クッキー	演奏時間	説明
_ga	2年	GoogleAnalyticsによってインストールされた_gacookieは、訪問者、セッション、およびキャンペーンデータを計算し、サイトの分析レポートのサイト使用状況を追跡します。 Cookieは情報を匿名で保存し、ランダムに生成された番号を割り当てて、一意の訪問者を認識します。
_gat_UA-32985745-1	1 minute	ウェブサイトの所有者が訪問者の行動を追跡し、サイトのパフォーマンスを測定できるようにするために、GoogleAnalyticsとGoogleTagManagerによって設定された_gatcookieのバリエーション。名前のpattern要素には、関連するアカウントまたはWebサイトの一意のID番号が含まれています。
_gcl_au	3か月間	Google Tag Managerによって提供され、サービスを使用するWebサイトの広告効率を実験します。
_gid	1日	GoogleAnalyticsによってインストールされた_gidcookieは、訪問者がWebサイトをどのように使用しているかに関する情報を格納すると同時に、Webサイトのパフォーマンスの分析レポートを作成します。収集されるデータには、訪問者の数、ソース、匿名でアクセスするページなどがあります。
同意	2年	YouTubeは、埋め込まれたyoutube-videosを介してこのCookieを設定し、匿名の統計データを登録します。
utm_キャンペーン	過去	Google 広告サービスは、セッションキャンペーン値が存在する場合、この Cookie を設定して保存します。
utm_content	過去	この Cookie は、セッションコンテンツの値を保存するために使用されます (存在する場合)。
utm_source	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
utm_term	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
vuid	2年	VimeoはこのCookieをインストールして、Webサイトにビデオを埋め込むための一意のIDを設定することにより、追跡情報を収集します。

クッキー	演奏時間	説明
_fbp	3か月間	このCookieは、Webサイトにアクセスした後、FacebookまたはFacebook広告を利用したデジタルプラットフォームのいずれかで広告を表示するようにFacebookによって設定されます。
_mkto_trk	2年	Marketo によって提供されるこの Cookie には、ユーザーのサイトの使用状況を追跡するために使用される情報 (一意のユーザー ID など) が含まれています。 Marketo によって設定された Cookie は、Marketo によってのみ読み取り可能です。
fr	3か月間	Facebookは、FacebookピクセルまたはFacebookソーシャルプラグインを備えたサイトで、Web全体のユーザーの行動を追跡することにより、ユーザーに関連する広告を表示するようにこのCookieを設定します。
IDE	1年24日	Google DoubleClick IDE Cookieは、ユーザーがWebサイトを使用して関連する広告を表示する方法に関する情報を、ユーザープロファイルに従って保存するために使用されます。
Personalization_id	2年	Twitter は、ソーシャルメディアの機能を統合および共有するためにこの Cookie を設定し、追跡とターゲティングのためにユーザーが Web サイトをどのように使用するかに関する情報も保存します。
test_cookie	15 minutes	test_cookieはdoubleclick.netによって設定され、ユーザーのブラウザがCookieをサポートしているかどうかを判断するために使用されます。
utm_medium	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
VISITOR_INFO1_LIVE	5月27日	ユーザーが新しいプレーヤーインターフェースを取得するか古いプレーヤーインターフェースを取得するかを決定する帯域幅を測定するためにYouTubeによって設定されるCookie。
YSC	セッション	YSC CookieはYoutubeによって設定され、Youtubeページに埋め込まれたビデオのビューを追跡するために使用されます。
yt-リモート接続デバイス	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt-リモートデバイスID	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt.innertube :: nextId	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。
yt.innertube ::リクエスト	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。

クッキー	演奏時間	説明
_chtbl	セッション	説明はありません。
_dtses	30 minutes	説明はありません。
_dtuid	10年	説明はありません。
BIGipServersj30web-nginx-app_https	セッション	全く説明しない
email	過去	説明はありません。
gclid	過去	全く説明しない
ハンドル ip	1月	説明はありません。
handle_landing_page	1月	説明はありません。
handle_original_ref	過去	説明はありません。
ハンドル参照	過去	説明はありません。
handle_url	1月	説明はありません。
li_gc	2年	全く説明しない
muc_ads	2年	全く説明しない
ユーザ名	過去	説明はありません。

Rescale プラットホーム

概要

HPC & AI ソフトウェア

HPC & AI アーキテクチャ

セキュリティ&コンプライアンス

エコシステム統合

価格（英語）

HPC as a Service

インテリジェントバッチ

エラスティック・クラウド・ワークステーション

ストレージ・ファブリック

エンタープライズ管理

チーム管理

パフォーマンス管理

持ち込みソフトウェアをクラウドで利用

デジタルエンジニアリング

AI の物理学

データ管理

計算パイプライン

HPC バッチ コンピューティングの定義

HPC バッチ ジョブ: 一般的な IT バッチ ジョブではありません

バッチ ジョブの設定に関する重要な考慮事項

適切なネットワーク ファブリックの重要性

著者

類似の投稿

ニュースレターの申込み