適切な HPC クラウド アーキテクチャを選択することの重要性に関する記事のソーシャル カード。
| |  

ニーズに合った適切な HPC クラウド アーキテクチャを見つける

高性能クラウド サービスの急速な拡大とチップ アーキテクチャの専門化により、組織は選択肢が増えていますが、複雑さの増大に直面しています。

デジタルの研究開発に携わるには、本当に素晴らしい時代です。 オンプレミスのデータセンターの古い制約は、クラウドベースのスーパーコンピューティング サービスの事実上無制限の弾力的な容量に置き換えられています。 研究者やエンジニアは、限られた非常に貴重なリソースにアクセスするために列に並んで待つ必要はもうありません。

しかしこれは、選択肢がたくさんあることも意味します。 どのクラウドプロバイダーを使用すればよいでしょうか? シングルクラウドにするべきでしょうか、それともマルチクラウドにするべきでしょうか? どのハイ パフォーマンス コンピューティング (HPC) サービスが最適ですか? どのようなチップ アーキテクチャを使用する必要がありますか?

そして重要なことに、HPC クラウド サービスとそれをサポートするチップ アーキテクチャは急速に進化しています。 チップの種類と数は爆発的に増加しています。 これにより、HPC ユーザーには大量のオプションが提供されるようになりますが、同時にかなりの複雑さも生じます。

良いニュース? Rescale は、チップ選択の課題を簡素化するためにパフォーマンス プロファイルを作成しました。 これらの傾向と、Rescale がどのように役立つかを詳しく見てみましょう。

HPC の新時代

HPC クラウド サービスは、現実世界の物理学の複雑なモデルやシミュレーションを実行するためのデジタル R&D の急速な成長によって、過去 XNUMX 年間で需要が急増しました。 HPC には、複雑な計算問題を解決するために戦略的にプールされたコンピューティング、アプリケーション、ストレージ、ネットワーキング リソースのエコシステムが含まれています。

クラウド テクノロジーは HPC 革命の最前線にあり、さまざまな業界の組織が従来のデータセンター環境が提供できる能力を超えるデータ処理能力を活用できるように支援します。 クラウド上の HPC は、研究開発プログラムのデジタル変革を推進しようとしている組織に、前例のないレベルのパフォーマンス、効率、柔軟性を提供します。

近年クラウドの導入は急激に増加しており、企業は IT 予算の 30% 以上をクラウド インフラストラクチャに費やしています。 この成長には正当な理由があります。 クラウドは、共有リソースへのオンデマンド アクセスや、高価な社内サーバー機器の排除によるコスト削減など、比類のない利点を提供します。

特殊チップの成長

クラウドベースの HPC サービスの拡大と相まって、特殊チップの大幅な成長により、研究開発向けのハイ パフォーマンス コンピューティングが変革され、特定のワークロードに合わせて調整されたスーパーコンピューティング能力が提供されています。特殊チップは、汎用の中央処理装置 (CPU) の非効率性に対処することを目的としています。 。

これらの新しいチップは、グラフィック プロセッシング ユニット (GPU)、フィールド プログラマブル ゲート アレイ (FPGA)、特定用途向け集積回路 (ASIC) など、さまざまな形式で提供されます。 これらは、人工知能 (AI)、機械学習 (ML)、ビッグ データ分析などの特定のタスクの計算を高速化するように設計されています。

特殊チップの普及により、パフォーマンスが向上しています。 ムーアの法則は過去 XNUMX 年間にわたって横ばい傾向にあり、これは、従来のチップの性能がコンピューター業界の初期ほど速く向上していないことを意味します。

その結果、市場は速度、コスト、エネルギー効率において新たな効率を得るために、専用の半導体コンピューティング アーキテクチャに移行しており、チップ アーキテクチャの多様性は爆発的に増加しています。 特殊なチップの数は過去 1,000 年間で 10% 増加しました。 たとえば 2020 年には、400 を超える新しいチップ タイプ (コア タイプとインスタンス) が市場に参入しました。 現在では 1,450 を超える異なるチップ タイプ (コア タイプとインスタンス) があり、これは加速するばかりです。

ムーアの法則が平坦化するにつれ、業界は特殊なチップに注目するようになりました
データ集約型の研究開発コンピューティング タスクのパフォーマンスを向上させます。

この驚くべき成長は、Arm アーキテクチャの急速な採用とチップ製造方法の新しいパラダイムによって促進されています。 AWS、Microsoft、Google などの企業は、クラウド運用をサポートするために独自のチップを製造しています。

重要なのは、これらの特殊チップは特定の計算タスク用に設計されていることです。 XNUMX つのチップは並列タスクに優れている可能性があり、もう XNUMX つのチップはシングルスレッドのデータ集約型計算タスクで最速の速度を提供する可能性があります。 そして、これらはいずれも、すべてのタスクおよびすべてのワークロードにとって最適な選択ではありません。

たとえば、次のコマンドを実行している場合、 計算流体力学 (CFD) または 有限要素解析 (FEA) シミュレーション、どのソフトウェアを実行しますか? それらは異なる動作をすることになります。 導入する各変数により、特定のタスクに最適なパフォーマンスを提供する異なるチップが生成されます。

これらのトレードオフを詳しく見てみましょう。 適切なチップの選択 適切なアプリケーションと計算タスクを使用すると、パフォーマンス、コスト、エネルギー効率に大きな違いが生じます。

研究開発のコンピューティング ニーズに適したチップ アーキテクチャを選択する

最初に検討する使用例は、シミュレーションの実行時間を最適化することです。 適切なハードウェアを選択することで、ユーザーはシミュレーションに必要なリソースを割り当て、自動車部品メーカーが新規契約を獲得するために新しい機器を設計する場合など、時間が重要な要素である場合にシミュレーションをより高速に実行できます。

あるいは、シミュレーション コストの削減を検討しているかもしれません。 適切なハードウェアを選択することで、ユーザーはシミュレーションの実行に必要なソフトウェア ライセンスの時間を最小限に抑えることができ、シミュレーションの実行にかかる全体的なコストを削減できます。

これは、予算が限られている場合に特に役立ちます。 このような経済情勢の中で、組織はこれまで以上にコストを意識する必要があります。 クラウドのコストを管理するには、より高速なハードウェアを使用して合計使用時間を短縮することが非常に有益です。

XNUMX 番目の使用例は、シミュレーションのスケーリングです。 シミュレーションがスケールするにつれて、特に複数のクラスターで実行する必要がある場合や、より多くのメモリを必要とするユースケースでは、ハードウェアが異なるとパフォーマンスも異なります。

これら XNUMX つのユース ケースは、ハイ パフォーマンス コンピューティングで考えられるすべての研究開発ユース ケースのほんの一部にすぎません。 そしてほとんどの状況では、これら XNUMX つのニーズがすべて融合します。

最速、最安、最大規模だけを求めるわけではありません。 そして多くの場合、それはコストパフォーマンスとのトレードオフの問題です。 どのクラウド サービス上のどのチップがイノベーションの取り組みを加速するのに最も効果的でしょうか?

効果的なベンチマークの障壁

HPC アーキテクチャのパフォーマンス、コスト、エネルギー効率、およびスケーラビリティを理解することが重要です。 この理解を得るために、組織は従来、特定のハードウェアをベンチマークし、アプリケーションでテストすることができました。 しかし現在、新しいチップが急速に市場に投入されており、組織がベンチマークに追いつくことが困難になっています。

チップ市場は急速に多様化しています。

そしてベンチマークは簡単ではありません。 HPC ベンチマークを開始するには、時間がかかる場合があります。 ベンチマークを設定して実行するには多大な労力が必要です。 これは、実行するために必要な専門知識やリソースが不足している組織にとっては特に困難となる可能性があります。

現在、テストに最適なハードウェアを特定することは困難です。 また、異なるシステム属性、おそらく異なる CPU メモリ ストレージやネットワークを持つさまざまなチップを使用したい場合もあります。 最新かつ最高のチップタイプが導入されるたびに追いついていないと、遅れを取る可能性があります。

また、パフォーマンスの問題の根本原因の特定は複雑な場合があるため、ベンチマーク結果の分析と解釈は困難です。

パフォーマンスプロファイル: 常に適切なチップ

では、研究開発タスクに適した HPC ハードウェアを選択するためにベンチマークが重要である場合、組織は何ができるでしょうか? 答えは パフォーマンスプロファイルを再スケールする.

パフォーマンス プロファイルは、組織がニーズに最適なチップ タイプを即座に知る方法を自動化します。

パフォーマンス プロファイルを使用すると、組織は特定のアプリケーションやコンピューティング タスクに対する独自のパフォーマンス インテリジェンスを確立できます。

パフォーマンス プロファイルを使用すると、適切なコア タイプや必要なコア数を選択する際に、推測に頼る必要がなくなります。

代わりに、パフォーマンス プロファイルを使用すると、そのパフォーマンス マップを使用して、シミュレーションに最適なハードウェア リソースの組み合わせを決定できます。

パフォーマンスプロファイルマップ

パフォーマンス プロファイルは、ハードウェア アーキテクチャの長所と短所を理解するために必要なすべての比較データを提供します。 その後、戦略的ニーズに合わせた意思決定を行うことができます。 ユースケースで見てきたように、それは顧客ごとに異なり、実際は当面のプロジェクトによって異なります。

パフォーマンス プロファイルを使用すると、ソフトウェアとモデルの実際のベンチマークに基づいて情報に基づいた意思決定を行うことができ、チップ タイプ、クラスター サイズ、アプリケーション タイプ、およびコンピューティング タスク間の変数を分離することができます。 パフォーマンス プロファイルを使用すると、どの HPC インフラストラクチャが研究開発のニーズに対して実際に機能するかを知ることができます。

クリーン エネルギーの新興企業である Kairos Power を含め、当社の顧客の多くはすでに Rescale パフォーマンス プロファイルの恩恵を受けています。

「パフォーマンス プロファイルは、私たちにとって非常に貴重な機能です」と Kairos の主任流体力学エンジニア、ブライアン ジャクソンは言います。 「パフォーマンス プロファイルを使用することで、私たちのチームは、これまで使用してきたチップ アーキテクチャと比較してコスト対速度が 30% 向上する XNUMX つのハードウェア アーキテクチャを発見しました。 今後は、これらの新しいコア タイプを利用し、引き続きこの新しい Rescale 機能を使用してパフォーマンスと価値を最適化していきます。」

デジタル R&D とハイ パフォーマンス コンピューティングのこの新しい時代では、クラウド サービス プロバイダーから適切なハードウェア アーキテクチャを選択する必要性が最も重要です。 正しい選択を行うことは、コスト、パフォーマンス、規模、持続可能性に大きな影響を与えます。 間違った対応をすると、イノベーションへの取り組みが遅れ、コストがかかる可能性があります。 Rescaleパフォーマンスプロファイルを使用して賢明に選択してください。

組織が研究開発ニーズに適した HPC アーキテクチャを選択するのに Rescale パフォーマンス プロファイルがどのように役立つかについて詳しく知りたいですか?ウェビナーをご覧ください。 「クラウドにおけるワークロードのコストとパフォーマンスの最適化」 または詳細について学ぶ パフォーマンスプロファイル.

著者

  • エリック・ログン

    Rescale プラットフォームで視覚化、ワークフロー、コラボレーション、パフォーマンス インテリジェンス、アイデンティティ管理を管理しています。 Rescale に入社する前は、Erik は LiveRamp でデータ マーケットプレイスとプラットフォーム統合製品を運営していました。 キャリアの初期には、ロッキード・マーティン社の衛星部門でエンジニアを務めていました。

類似の投稿