|

オンプレミス HPC システムの構築にかかる醜く、隠され、過小評価されているコスト

現在および将来の HPC および組織の需要に応じて、各システムには利点と制限があり、それらを定義して比較する必要があります。 通常、システム間の主な比較の XNUMX つは総所有コスト (TCO) です。 以前のブログ投稿でも述べたように、 TCO は、根本的に異なる代替製品間で購入を決定するのにはまったく適していません。 オンプレミス HPC システムの TCO については、当社の営業担当副社長もブログで 30 年以上議論しています。 「ハイパフォーマンス コンピューティングの実際のコスト」 オンプレミス HPC システムの購入を検討している人にとって、オンプレミス HPC システムの TCO を計算するときに見落とされがちな隠れた費用がいくつかあります。
この投稿では、オンプレミス システムの TCO を分析し、見落とされる可能性のあるいくつかの費用を明らかにするつもりです。
TCO についての簡単なレビュー
オンプレミス HPC システムの TCO の広義の定義は、将来のシステムに関連するすべての直接経費と間接経費の合計額です。 より明らかな経費は、ハードウェア、ソフトウェア、人員配置、電力です。 ハードウェアとしては、サーバー、配線、ToR スイッチ、集約スイッチ、サーバー ラック、配電ユニットなどが必要です。次に、複雑な問題を解決するために各ノード間の通信を調整するソフトウェアを購入する必要があります。 さらに、使用する予定のソフトウェアのライセンスを購入する必要があります。 非常に変動しやすく、見積もりが難しいリソースは、オンプレミス HPC システムの開発、展開、保守に必要な人員配置です。 最後に、オンプレミスの HPC システムには多くの電力と冷却機能が必要です。エネルギー消費量と、それが運用コストにどのような影響を与えるかを計算することが重要です。 上記の項目の費用を合計すると、オンプレミス HPC システムの基本的な TCO が求められます。 ただし、オンプレミス システムの TCO に大きな影響を与える可能性のある隠れたコストがいくつかあります。
現実世界の隠れたコスト
#1 HPC システムをホストする施設には、一見した以上に大きなコスト依存関係があります。。 現在のシステムとその潜在的な拡張性をサポートするために必要な適切な冷却と電力設備が施設に確保されていることを確認すると、将来的に大幅な経費を節約できます。 電力は大きな出費であり、全体の運用コストに非常に大きな影響を与える可能性があります。 クラスターの場所と使用率に応じて、電力コストは大きく異なる可能性があります。 所在地によっては電力料金が大きく変動する場合があり、費用を最小限に抑えるために HPC システムをどのように運用するかに大きな影響を与えます。 場合によっては、電力が運営費の 1/3 以上になることもあります。 設備とエネルギーは TCO を計算する際に考慮することが重要であり、大規模な設備の場合は最優先事項として考慮する必要があります。
#2 人員配置には想像以上のコストと変動があり、無視するとパフォーマンスと稼働時間が低下します。 最も変動しやすく、定義が難しい費用の 5 つは、オンプレミス HPC システムの人員配置です。 HPC システムの開発、展開、保守を実行できる優れた運用マネージャーおよび IT マネージャーを見つけ、雇用し、訓練することは非常に困難です。 HPC システムの設計には、コンピューティングの需要に最適なハードウェアとソフトウェアを適合させるために高価な専門家が必要です。 システムの調達だけでも、HPC システム全体の 6% もの費用がかかる可能性があり、少なくとも XNUMX か月かかります。 この間、クラスターを組み立てるためにスペシャリストに支払いを続ける必要がありますが、HPC システムに対する報酬は受け取れません。 システムを導入すると、そのメンテナンスと運用を確保するために非常に特殊な IT スタッフが必要になります。 これらの従業員は、HPC システムの寿命とパフォーマンスをテストして保護するための専門的なスキルを必要とします。 これらの機能を実行する適切な従業員を見つけるのは面倒でコストがかかる場合がありますが、オンプレミス HPC システムの導入を検討する場合は最優先事項です。
#3 十分に活用されていない場合、アイドル時間だけでなく、関連するオーバーヘッドも大きくなります。 HPC システムがアイドル状態になると、ROI が低下するだけでなく、製品開発サイクルに壊滅的な影響を与える可能性があります。 バックアップ システムは、HPC システムを稼働させるために必要な経費とはみなされないため、見落とされる可能性があります。 ただし、それらを持たないと悲惨な結果が生じる可能性があります。 システムを停電から確実に保護するには、発電機、スイッチ、ガス、バックアップ エネルギー システムのメンテナンスがすべて必要です。 バックアップ エネルギーの備えと同様に、バックアップ ハードウェアは HPC システムのアイドル状態を軽減するために非常に重要です。 問題が発生した場合に備えて、予備のハードウェアを手元に用意しておくことが重要です。 バックアップ ハードウェアがなければ、部品の修理または購入の間、システムはアイドル状態のままになる可能性があります。 計画に失敗した場合は、失敗することを計画する必要があります。 これは、オンプレミスの HPC システムを実行する場合に特に当てはまります。
#4 最後に、オンプレミス テクノロジは絶えず困難を伴う (そして通常は負ける) 戦いです。。 これは、最高のテクノロジーが利用されていないこと、そしてそれに追いつくために多大な努力と資本を費やさなければならないことによって引き起こされる害です。 HPC システムを比較するときは、コストと報酬、およびそれらが相互に与える影響を認識する必要があります。 最高のテクノロジーを使用しないと、最高のシステムによって得られる報酬の喪失に起因する出費が発生する可能性があります。 最適な HPC ソリューションを使用しないことに関連する費用は、生産性の低下、イノベーションの逃し、解決までの時間の長期化、テクノロジーの更新コスト、IT リスク管理、IT 負債とコミットメントの増加です。 最も有害な剥奪された報酬は、研究パイプラインの非効率性であり、市場投入までの時間の増加、イノベーションの遅れ、研究者のアイドル時間の増加に関連して膨大な費用が発生します。 HPC テクノロジーの欠如は、より大きな問題を調査できなかったり、組織の競争力を低下させるイノベーションの欠落など、取り返しのつかない影響を組織にもたらす可能性があります。 より優れた HPC ソリューションによってチームの効率がどの程度向上するかを評価し、それから逆算して非効率性と相関する費用を計算する必要があるため、これらの費用の計算は困難であることがよくあります。
要約すると、オンプレミス HPC システムの真の TCO を見つけることは、人員配置、設備、電力消費、バックアップの準備、報酬の剥奪など、すべての隠れたコストを考慮すると非常に困難であることがわかります。 HPC システムを比較する際に考慮すべき最も重要な費用の XNUMX つは、報酬の剥奪によって生じる費用であると私は主張します。 ただし、これらは計算と予測が最も難しいことが判明しています。 クラウド対応 HPC システムとオンプレミス HPC システムの TCO 比較というテーマは定期的に議論されていますが、まだ明確に定義されていません。 この比較は私たちが改善に取り組んでいるものですので、このブログ投稿や TCO に関してコメントや質問がございましたら、ぜひご意見をお聞かせください。
サラ・ジーンズ。 (2017年19月2日)。 ハイ パフォーマンス コンピューティング (HPC) のクラウドとデータセンターのコスト: 実際の例。 取得元: https://www.internet14114.edu/blogs/detail/XNUMX
トニー・スパニョーロ。 (2015年XNUMX月)。 ハイパフォーマンス コンピューティングの実際のコスト。 取得元: https://rescale.com/blog/the-real-cost-of-high-performance-computing/
ヴォルフガング・ゲンチェ。 (2016年6月2016日)。 社内コンピューティング リソースとクラウド コンピューティングのメーカー向けの総コスト分析。 取得元: https://community.theubercloud.com/wp-content/uploads/04/XNUMX/TCO-Study-UberCloud.pdf

類似の投稿