| | | | | | |

キュー紛争の解決: Slurm-Rescale コネクタにより、オンプレミス HPC ユーザーにとってハイブリッド クラウドがシームレスになります

リスケールのみ 発表の のサポート Slurm ワークロード マネージャー シームレスなクラウド コネクタを介して、Slurm を使用してオンプレミスのハイ パフォーマンス コンピューティング (HPC) クラスターを管理する組織にハイブリッド クラウドへの新しい道を開きます。 Slurm は、広く使用されている人気のあるオープンソースのワークロード スケジューラです。 3分の2 特に政府、国立研究機関、高等教育システム向けの、世界で最も強力なスーパーコンピューターの XNUMX つです。 

HPC スケジューラー、キュー、およびオンプレミス ハードウェアの制限

従来のオンプレミス コンピューティングでは、スケジューラはテクノロジー スタックの重要な部分であり、多くのユーザーが計算タスクのために組織のサーバーと対話できるようにします。 スケジューラを使用すると、ユーザーと管理者はコマンドを使用して、いつジョブを実行するか、どのくらいの利用可能なリソースを利用する必要があるかを監視および操作できます。 スケジューラーを使用すると、HPC ジョブが連続的かつ効率的な方法で完了し、特定のハードウェア セットまたは「クラスター」のハードウェア使用率が最大化されます。 複数のジョブが重なって遅延が発生すると、この「スケジューリング」が「キューイング」になり、オンプレミス (固定) コンピューティングの不都合な副作用により、科学者やエンジニアはリソースの容量が自分たちのジョブに解放されるまで待たされることになります。 リソース不足による頻繁な遅延は、研究開発や商品化のスケジュールに悪影響を及ぼします。そのため、クラウドへのバーストなど、追加のハードウェアへのアクセスを拡大することが非常に重視されています。 IT/HPC 管理者とエンドユーザーの間で、オンプレミス展開における容量の可用性と使用率の間のトレードオフの最適なバランスをとる方法について意見が一致しないことはよくあります。

従来の運用とクラウドベースの運用の橋渡し

クラウド コンピューティングは、事実上無制限の容量を利用できるため、キューの問題を大幅に解決します。 市場データによると、クラウド HPC の成長はオンプレミスを 2 ~ 3 倍上回っていますが、多くの老朽化したオンプレミス システムは現在も稼働しており、スケジューラによって管理されています。 ほとんどの組織 (視聴者の38%が)すでに使い始めているとのこと HPC向けクラウド しかし、その多くはこれらのインフラストラクチャを個別に実行します。 デジタル変革の真っ最中にある多くの組織にとって、フルクラウド化はまだ先の目標であり、利用可能なすべてのリソースを最大限に活用できるソリューションを必要としています。 XNUMX つ確かなことは、コンピューティング要件が減少することはめったにないため、多くの場合、クラウドへのバーストがクラウド ファーストの HPC オペレーティング モデルへの第一歩となることです。 Slurm はクラウドおよび特殊な CPU および GPU アーキテクチャのサポートを拡大しているため、Rescale の高度なクラウド HPC 自動化をより多くのユーザーに提供するために提携するのに理想的なスケジューラーです。

Rescale と Slurm を備えた真のハイブリッド、マルチクラウド HPC

クラウドでの HPC プラクティスをゼロから構築することは、特に HPC に対するクラウドの利点を最大限に活用する場合には微妙です。 全体的にスケールアップまたはスケールダウンするための制御と柔軟性を備えています。 複数のクラウドと複数のアーキテクチャ ワークロードのパフォーマンスとコスト効率に大きな影響を与えます。 IT 管理者は、HPC の運用をオンプレミスで完全に制御し、理解することに慣れていますが、クラウドを組み込むと、新たな複雑さが生じる可能性があります。 多くのポイント ソリューションや自社開発ツールが困難を抱えている場合、Rescale はコンピューティング スタック全体で多くの一般的なデジタル ツールをシームレスに接続します。 Rescale の Slurm コネクタはと共同開発しました RedLine パフォーマンス ソリューション HPC ユーザーと管理者は、使い慣れた Slurm コマンドを使用して、AWS、Azure、Google、その他のハイパースケールおよび専門クラウド サービス プロバイダーを含む任意のクラウドにジョブを送信できます。Rescale の事前の経験は必要ありません。

Slurm-Rescale コネクタ ワークフロー – Slurm はローカル HPC 上のジョブを制御できますが、Rescale で送信されたジョブは、Slurm コマンドの追加フラグを使用した Rescale API との対話によって制御されます。

Slurm-Rescale コネクタは、Rescale API を使用して Slurm から Rescale プラットフォームにジョブを送信する機能を示します。 コネクタ コードは、ユーザーがアクセスできるようにする Slurm ソース コードの修正バージョンです。 リスケールプラットフォーム 使い慣れた Slurm コマンドを使用します。 これを達成するために、Slurm リポジトリのソース コードが別のブランチにフォークされ、Rescale 固有の更新でカスタマイズされました。 これは Rescale によって保守され、新しい Slurm リリースのたびに更新されます。 ワークロードのハイブリッド オーケストレーションを実現するために、一般的な Slurm スクリプトは、ユーザーの組織によって設定されたポリシーに基づいて、オンプレミス リソースまたは Rescale リソースのいずれかにワークフローをフォークするように変更および拡張されます。

制約のない加速されたデジタル R&D を強化する

Rescale ユーザー向けのこの追加機能は、異種のシステムを運用していたり​​、ユーザー エクスペリエンスの変化に対する懸念からクラウドを保留していた多くの組織に新たな可能性をもたらします。 ジョブの送信と監視に Slurm の使い慣れたコマンドを使用すると、エンジニアや科学者は通常どおり既存のリソースを活用でき、管理者は必要に応じて自動的にクラウドに移行することでコンピューティング リソースの制約を解決できます。 どれでも IT または HPC マネージャー 成功したものを展開するのは誰ですか ハイブリッドクラウドソリューション はすぐにヒーローとなり、1) ユーザーの待ち時間をゼロに短縮し、2) 既存のコンピューティング投資の耐用年数を最大化することで大きなポイントを獲得しました。 一貫したワークロード管理エクスペリエンスを実現することで、複数のコンピューティング環境にわたる継続的な運用を確保できます。また、Rescale の追加パフォーマンス最適化により、組織はワークロードごとに最新かつ最適なアーキテクチャを選択できるようになります。

高度なレベルを必要とする組織向け セキュリティとコンプライアンス、ITAR、FedRAMP、ISO-27001 などの Rescale の主要な標準の保証を受けて、クラウドのメリットを享受できるようになりました。 Rescale は、FedRAMP Moderate Authorization を備えた最初で唯一のフルスタック HPC プラットフォームであり、公共部門と民間部門の両方の組織がパブリック クラウドにアクセスできるようにするための追加対策への投資を継続しています。

Rescale で Slurm を使い始める

この新しい機能を次の機会に紹介できることを楽しみにしています。 スーパーコンピューティング22 興味のある方はぜひ当社のブース (#2741) にお立ち寄りいただき、デモンストレーションをご覧ください。 ニュースの公式発表を読むことができます こちら.

著者

  • ギャレット・ヴァンリー

    Garrett VanLee は、Rescale の製品マーケティングを率いており、業界全体のイノベーションの最先端で顧客と緊密に連携しています。彼は、顧客の成功事例、研究の成果、Rescale のエンジニア、科学者、IT 専門家が他の組織を支援するためのベスト プラクティスを共有することを楽しんでいます。ギャレットは現在、スーパーコンピューティングの収束に焦点を当てています。 (HPC), AIシミュレーション モデルと、これらのトレンドが科学と産業における発見をどのように推進しているかについて説明します。

類似の投稿