ハイパフォーマンスコンピューティングシステムを管理するための重要なヒント

HPC バッチジョブを正常に実行するには、チームはスケジュール、セキュリティ、トラブルシューティング、および新しいクラウド要件について計画する必要があります。

By マーク·ホイットニー 2023 年 8 月 31 日2024 年 3 月 14 日

Rescale のエンジニアリングチームは、管理の複雑さを解決することに専念しています。ハイパフォーマンスコンピューティング (HPC) ハイブリッドおよびマルチクラウドコンピューティングの時代におけるシステム。

研究開発向け HPC の基本は、デジタルシミュレーションやその他の種類の分析を実行するためのコンピューティングジョブを作成および管理することです。したがって、Rescale エンジニアリングチームが重点を置く重要な領域は、シミュレーションジョブやその他の大規模なコンピューティングタスクを正常にセットアップして実行するために必要なタスクの多くを自動化することです。

XNUMX 部構成のブログ投稿シリーズの XNUMX 番目です (パート XNUMX をお読みください: 「HPC バッチジョブを実行するためのベストプラクティス」) では、スケジューリング、セキュリティ、トラブルシューティング、クラウド HPC の特定の要件を理解する必要性の増大など、HPC バッチジョブに関する広範な管理上の考慮事項のいくつかについて説明します。

HPC バッチジョブのやりくり

それで走るためにバッチ処理の場合は、クラウドでもオンプレミスでも、ハードウェアをセットアップし、ネットワークを構成し、ソフトウェアをセットアップする必要があります。プロセスは異なりますが、これをすべて適切に実行するにはどちらも HPC の専門知識が必要です。

特定のバッチジョブの要件を比較的よく知っている場合は、通常、すべてを数時間で完了できます。しかし、これはあまり現実的ではありません。通常、常に同じ種類のバッチジョブをセットアップすることはないからです。特定のアプリケーションに合わせてコンピューティング環境を構成する必要があります。一部のタスクは優れたスループットを必要とし、他のタスクはより多くの並列化を必要とするなどです。

各 HPC バッチジョブは独自の行程であり、システムが特定のワークロードに対して最適化されていることを確認するために、すべてのハードウェアおよびソフトウェアコンポーネントに対処する必要があります。これは、新しいタイプの HPC ジョブを構築するためにゼロから始めることを意味する場合があり、その過程でいくつかの教訓を学ぶ必要がある場合があります。

そして次のタスクは、これらすべてのバッチジョブをスケジュールするそのため、優先順位の高い仕事を持つ人は、締め切りに間に合うように仕事を終わらせます。また、HPC バッチジョブの進行中のフローを処理する場合は、まったく別のレベルの構成とプロビジョニングを実行する必要があります。

研究開発チームが使用するさまざまなアプリケーションの数に応じて、新しいバージョンのソフトウェアをセットアップしてサポートする必要もあります。新しいアプリケーションがクラスタ化されたハードウェア上で適切に動作することを確認するために、大規模なメンテナンスとチューニングが必要です。

理想的には、クラウドでもオンプレミスでも、ハードウェアを定期的に更新する必要があります。毎月、新しいチップが市場に投入され、より高速なレースカーが常に登場しています。新しいものから最も恩恵を受けるかもしれません ArmベースのCPU より優れたエネルギー効率を実現するには、GPU による純粋な並列化能力が必要になる場合があります。したがって、これも維持し、管理する必要があります。

あとはシステムの継続的なメンテナンスだけです。スケジューラは時々悪い状態になることがあり、それを修復する必要があります。すべてをセットアップして希望どおりに実行した後でも、クラウドベースの HPC とオンプレミスの HPC の両方に多くのメンテナンス部分があります。

障害のある HPC バッチジョブのコスト

コンピューティング環境が正しく設定されておらず、システムの障害、これにより、ジョブが完了しなかったり、シミュレーションやその他の分析が正しく完了しなかったりする可能性があります。

これは、設計している製品に劇的な影響を及ぼします。システムから不正なデータが取得されている場合、特にそれがエラーとしてフラグが立てられていない不正なデータである場合、それは製品開発または規制遵守にとって大きな問題となる可能性があります。気づかなかった欠陥を持った製品を作ってしまう可能性があります。

また、障害が発生してソフトウェアがそれを呼び出した場合でも、すべての作業が失われます。次に、それを修正してシミュレーションを再度実行する必要があります。そして、それがハードウェア障害だった場合、この種のエラーは判断が非常に難しいため、さらにイライラします。ノード間通信も同様です。多くの場合、これによりチームは障害を見つけられず、シミュレーションを再実行して再び障害が発生し、高価で時間のかかるトラブルシューティングプロセスを繰り返すことになります。

したがって、全体として、HPC バッチジョブが正しく設定されていない場合、ジョブが失敗したり不正確になったりして、時間や費用がかかったり、会社を危険にさらしたりする可能性があります。

その一例が、当社のクラウドプロバイダーパートナーの XNUMX つでした。一部の製品では一貫したバージョンのファームウェアがセットアップされていませんでした。スイッチ。ネットワーキングライブラリは、その特定のコンピューティングクラスター上のバッチジョブの 48 時間後にランダムに失敗します。

スイッチ上のその種のファームウェアは、スタックのかなり下の方にあります。アプリケーションの出力を見るだけでは、障害の原因がネットワークファームウェアであることを特定することはできません。それらの欠陥が見つかったら、それが失敗したことがわかります。しかし、多くの場合、HPC システムにはすべての層があるため、スタックのどこで問題が発生しているのかわかりません。

したがって、非常に時間がかかる可能性があるデバッグの問題があります。また、一度だけ発生する場合は大した問題ではないかもしれませんが、さまざまなワークロードで XNUMX 日に数回障害が発生した場合、大量のシミュレーションデータが廃棄されるとともに、多くの時間が失われる可能性があります。

HPC ジョブを確実に (オンプレミスとクラウドで) 確実に実行するには、ネットワーク、システム管理、ストレージ、データセンター管理、および複雑なアプリケーションのメンテナンスを担当する HPC 専門家のチームが必要です。 HPC システムの信頼性と効率性を確保するには多くの技術リソースが必要ですが、HPC 管理を自分で行う場合のベストプラクティスにはこれが必要です。

研究開発データのセキュリティ

もちろん、HPC にとってセキュリティは最重要です。 HPC システムには通常、組織の最も機密性の高い設計情報と製品情報が保管されています。

セキュリティを管理するには、組織内でコンピューティング環境をどの程度オープンにしたいかによって異なります。さまざまなタイプのユーザーアクセスを考慮し、承認されたユーザーがシミュレーションとデータを簡単に利用できるようにしながら、それらが組織の他の部分や組織外に移行したり「漏洩」したりしないようにする必要があります。

そして、これらはすべて、ファイルシステムレベルまたはシミュレーションデータを保存する場所で適切に設定および維持する必要があります。したがって、マルチユーザー環境で共有ファイルシステムを安全にセットアップして管理する方法を知る必要があります。これは、HPC チームに必要なもう XNUMX つのスキルセットです。

マルチクラウド管理

もちろん、クラウドは、ほぼ無制限のオンデマンドの高性能コンピューティング容量を提供することで、従来のオンプレミス HPC データセンターの最大の問題に対処します。しかし、マルチクラウド HPC コンピューティングは、新たな、そして同様に困難な技術的複雑さをもたらします。

HPC チームは、さまざまなクラウドプロバイダーでコードとしてのインフラストラクチャを管理する方法を本当に知る必要があります。クラウドプロバイダーによって、インターフェイスと構成をどのように操作する必要があるかがかなり異なります。

各クラウドプロバイダーは、コンピューティングを調整してクラスターを構築し、バッチジョブをサポートし、ノードを接続するネットワークファブリックでの低遅延を確保するさまざまな方法を採用しています。ほとんどの場合、CSP ごとにまったく異なる設定セットが存在します。

その理由の多くは、低遅延ネットワークについてこれらの考慮事項に入ると、それがまだ少しニッチであるためです。特にクラウド HPC は非常に新しいため、プロバイダー全体にわたる強力な標準がありません。各クラウドプロバイダーは、HPC コンピューティングの複雑な世界をまだ理解している段階であるため、やり方が異なります。したがって、クラウドプロバイダーに適切な構成を依頼する方法を知る必要があります。 API またはその SDK ハードウェアから最適なパフォーマンスを引き出します。

たとえば、AWS では EFA (Elastic Fabric Adaptor) と呼ばれるものが提供されています。これは、コンピューティングインフラストラクチャ上で低レイテンシネットワーキングを実現する AWS の社内ソリューションです。 Azure は、HPC 業界標準タイプのテクノロジである InfiniBand をサポートしていますが、これも仮想化されています。

したがって、AWS と Azure の両方で HPC ワークロードを実行したい場合は、これらの異なるネットワークテクノロジを最大限に活用するためにノードをプロビジョニングする方法を理解する必要があります。そして、各ファブリックのノードのクラスターを接続したら、次は、ファブリックの構成方法を知る必要があります。 MPI ライブラリそれぞれのタイプのネットワークを活用します。

ネットワークファブリックを超えて、ハードウェア自体の上にあるスタックの他の部分も構成する必要があります。

さらに、地域内のどの HPC クラウドサービスプロバイダーがコストとパフォーマンスの最適なトレードオフを提供するかを理解するという課題もあります。時間帯によっても、HPC ジョブの実行コストに大きな違いが生じる可能性があります。また、HPC スーパーコンピューティングクラスターの場合、特に特殊なインフラストラクチャの場合、クラウドプロバイダーでは可用性が保証されるわけではありません。

また、すべてのクラウドサービスアカウントを注意深く監視する必要があります。クラウドリソースを見失うことは驚くほど簡単で、シャットダウンし忘れていたものの請求書が届く月末になって初めて見つけることができます。

HPC クラウドサービスの市場全体と自社のインフラストラクチャエコシステム全体にわたる可視性と洞察を得ることが、賢明な買い物客となり、クラウドコストを管理して HPC への投資を最大限に活用するために不可欠です。

セットアップ中や、 HPC の管理バッチジョブは決して単純ではなく、正しく行うことが重要です。スーパーコンピューティングは今や、増大する強力なデジタル技術を強化するために不可欠ですモデリングとシミュレーション科学研究とエンジニアリングを仮想化するソフトウェア。このようなデジタル研究開発は現在、将来のイノベーションの基盤となりつつあります。ハイパフォーマンスコンピューティングを使いこなす企業は、製品開発の取り組みにおいてますます有利になるでしょう。

詳細については、こちらから Rescaleのインテリジェントバッチ機能
すべてのハイパフォーマンスコンピューティングジョブが確実に実行されるようにします。
高速、効率的、確実に実行するための正しい方法を設定します。

マーク·ホイットニー

Mark Whitney は、Rescale のエンジニアリングディレクターです。彼の専門分野には、ハイパフォーマンスコンピューティングアーキテクチャ、量子情報研究、クラウドコンピューティングが含まれます。彼はカリフォルニア大学バークレー校でコンピューターサイエンスの博士号を取得しています。

すべての投稿を見る

クッキー	演奏時間	説明
AWSALBCORS	7日	このCookieはアマゾンウェブサービスによって管理され、負荷分散に使用されます。
cookielawinfo-チェックボックス-広告	1年	GDPR Cookie Consentプラグインによって設定されたこのCookieは、「広告」カテゴリのCookieに対するユーザーの同意を記録するために使用されます。
cookielawinfo-チェックボックス-分析	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「分析」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-機能	11か月間	Cookieは、「機能」カテゴリのCookieに対するユーザーの同意を記録するためにGDPRCookieの同意によって設定されます。
cookielawinfo-checkbox-Necessary	11か月間	このCookieはGDPR Cookie Consentプラグインによって設定されます。 Cookieは、「必要」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-その他	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「その他」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-パフォーマンス	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「パフォーマンス」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
visible_cookie_policy	11か月間	CookieはGDPR Cookie Consentプラグインによって設定され、ユーザーがCookieの使用に同意したかどうかを保存するために使用されます。個人データは保存されません。

クッキー	演奏時間	説明
__cf_bm	30 minutes	Cloudflareによって設定されたこのCookieは、Cloudflareボット管理をサポートするために使用されます。
クッキー	2年	LinkedInは、ブラウザIDを認識するために、LinkedInの共有ボタンと広告タグからこのCookieを設定します。
長い	セッション	LinkedInは、ユーザーの言語設定を記憶するようにこのCookieを設定します。
LIDC	1日	LinkedInは、データセンターの選択を容易にするためにlidccookieを設定します。
プレイヤー	1年	Vimeo は、この Cookie を使用して、Vimeo から埋め込みビデオを再生するときにユーザーの設定を保存します。

クッキー	演奏時間	説明
AWSALB	7日	AWSALBは、セッションをターゲットにマッピングするためにアマゾンウェブサービスによって設定されるアプリケーションロードバランサーCookieです。
同期アクティブ	決して	この Cookie は Vimeo によって設定され、訪問者のビデオコンテンツの好みに関するデータが含まれているため、Web サイトは好みの音量やビデオ品質などのパラメータを記憶します。

クッキー	演奏時間	説明
_ga	2年	GoogleAnalyticsによってインストールされた_gacookieは、訪問者、セッション、およびキャンペーンデータを計算し、サイトの分析レポートのサイト使用状況を追跡します。 Cookieは情報を匿名で保存し、ランダムに生成された番号を割り当てて、一意の訪問者を認識します。
_gat_UA-32985745-1	1 minute	ウェブサイトの所有者が訪問者の行動を追跡し、サイトのパフォーマンスを測定できるようにするために、GoogleAnalyticsとGoogleTagManagerによって設定された_gatcookieのバリエーション。名前のpattern要素には、関連するアカウントまたはWebサイトの一意のID番号が含まれています。
_gcl_au	3か月間	Google Tag Managerによって提供され、サービスを使用するWebサイトの広告効率を実験します。
_gid	1日	GoogleAnalyticsによってインストールされた_gidcookieは、訪問者がWebサイトをどのように使用しているかに関する情報を格納すると同時に、Webサイトのパフォーマンスの分析レポートを作成します。収集されるデータには、訪問者の数、ソース、匿名でアクセスするページなどがあります。
同意	2年	YouTubeは、埋め込まれたyoutube-videosを介してこのCookieを設定し、匿名の統計データを登録します。
utm_キャンペーン	過去	Google 広告サービスは、セッションキャンペーン値が存在する場合、この Cookie を設定して保存します。
utm_content	過去	この Cookie は、セッションコンテンツの値を保存するために使用されます (存在する場合)。
utm_source	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
utm_term	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
vuid	2年	VimeoはこのCookieをインストールして、Webサイトにビデオを埋め込むための一意のIDを設定することにより、追跡情報を収集します。

クッキー	演奏時間	説明
_fbp	3か月間	このCookieは、Webサイトにアクセスした後、FacebookまたはFacebook広告を利用したデジタルプラットフォームのいずれかで広告を表示するようにFacebookによって設定されます。
_mkto_trk	2年	Marketo によって提供されるこの Cookie には、ユーザーのサイトの使用状況を追跡するために使用される情報 (一意のユーザー ID など) が含まれています。 Marketo によって設定された Cookie は、Marketo によってのみ読み取り可能です。
fr	3か月間	Facebookは、FacebookピクセルまたはFacebookソーシャルプラグインを備えたサイトで、Web全体のユーザーの行動を追跡することにより、ユーザーに関連する広告を表示するようにこのCookieを設定します。
IDE	1年24日	Google DoubleClick IDE Cookieは、ユーザーがWebサイトを使用して関連する広告を表示する方法に関する情報を、ユーザープロファイルに従って保存するために使用されます。
Personalization_id	2年	Twitter は、ソーシャルメディアの機能を統合および共有するためにこの Cookie を設定し、追跡とターゲティングのためにユーザーが Web サイトをどのように使用するかに関する情報も保存します。
test_cookie	15 minutes	test_cookieはdoubleclick.netによって設定され、ユーザーのブラウザがCookieをサポートしているかどうかを判断するために使用されます。
utm_medium	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
VISITOR_INFO1_LIVE	5月27日	ユーザーが新しいプレーヤーインターフェースを取得するか古いプレーヤーインターフェースを取得するかを決定する帯域幅を測定するためにYouTubeによって設定されるCookie。
YSC	セッション	YSC CookieはYoutubeによって設定され、Youtubeページに埋め込まれたビデオのビューを追跡するために使用されます。
yt-リモート接続デバイス	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt-リモートデバイスID	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt.innertube :: nextId	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。
yt.innertube ::リクエスト	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。

クッキー	演奏時間	説明
_chtbl	セッション	説明はありません。
_dtses	30 minutes	説明はありません。
_dtuid	10年	説明はありません。
BIGipServersj30web-nginx-app_https	セッション	全く説明しない
email	過去	説明はありません。
gclid	過去	全く説明しない
ハンドル ip	1月	説明はありません。
handle_landing_page	1月	説明はありません。
handle_original_ref	過去	説明はありません。
ハンドル参照	過去	説明はありません。
handle_url	1月	説明はありません。
li_gc	2年	全く説明しない
muc_ads	2年	全く説明しない
ユーザ名	過去	説明はありません。

Rescale プラットホーム

概要

HPC & AI ソフトウェア

HPC & AI アーキテクチャ

セキュリティ&コンプライアンス

エコシステム統合

価格（英語）

HPC as a Service

インテリジェントバッチ

エラスティック・クラウド・ワークステーション

ストレージ・ファブリック

エンタープライズ管理

チーム管理

パフォーマンス管理

持ち込みソフトウェアをクラウドで利用

デジタルエンジニアリング

AI の物理学

データ管理

計算パイプライン

HPC バッチ ジョブのやりくり

障害のある HPC バッチ ジョブのコスト