クイックヒント: 出力ファイルの圧縮

クラウド HPC の主な課題の XNUMX つは、オンプレミスのマシンとクラウド内のマシンの間で転送する必要があるデータの量を最小限に抑えることです。従来のオンプレミスシステムとは異なり、この転送ははるかに遅く信頼性の低いワイドエリアネットワーク上で行われます。すでに触れたように、前に、最善の方法は、後処理をリモートで実行し、不必要なデータ転送を避けることです。
とはいえ、多くのユーザーにとって一般的なシナリオは、シミュレーションを実行し、ジョブからすべての出力ファイルをワークステーションに転送することです。
ジョブが完了すると、作業ディレクトリ内の各ファイルが暗号化され、クラウドストレージにアップロードされます。これにより、出力ファイルの小さなサブセットをマシンにダウンロードするだけで済むユーザーに柔軟性が提供されます。ただし、そのトレードオフとして、各ファイルの転送時に追加のオーバーヘッドが発生します。ネットワーク経由でデータを転送する場合、XNUMX つのファイルに詰め込めるデータが多いほど良いです。さらに、多くのエンジニアリングコードは、圧縮率の高いファイルを生成します。ファイルの圧縮には余分な時間がかかりますが、圧縮に費やした時間と小さなファイルの転送にかかる時間が、大きな非圧縮アーカイブのアップロードに費やした時間よりも短い場合は、それでも利点が得られます。圧縮とその後の転送に全体的に時間がかかるとしても、転送プロセス全体における本当のボトルネックは、クラウドストレージとユーザーのワークステーション間の最後のホップになります。ここで転送する圧縮ファイルが小さいと、ユーザーのインターネット接続速度に応じて大きな違いが生じる可能性があります。
ジョブのすべての出力ファイルをダウンロードする必要があることが事前にわかっている場合は、一般に、各ファイルを個別に転送するのではなく、最初に単一の圧縮アーカイブファイルを生成することが最善です。 Linux tar コマンドを使用すると、圧縮アーカイブを簡単に作成できますが、MPI クラスターで利用可能な追加のコンピューティング能力を使用してアーカイブを生成することはありません。
Jeff Gilchrist は、MPI クラスター上で実行される使いやすい bz2 コンプレッサーを開発しました (https://compression.ca/mpibzip2/）。静的 bzip2 ライブラリ参照を使用して Linux バイナリをコンパイルし、利用できるようにしました。ここ自分の仕事に簡単に組み込めるようにダウンロードしてください。バイナリは、OpenMPI 1.6.4 mpic++ ラッパーコンパイラを使用してビルドされました。使用している MPI フレーバーによっては、再コンパイルが必要になる場合があることに注意してください。
これを使用するには、mpibzip2 実行可能ファイルをジョブの追加入力ファイルとしてアップロードします。次に、ジョブ設定ページの分析コマンドの末尾に次のコマンドを追加します。
tar cf files.tar –exclude=mpibzip2 *
mpirun -np 16 mpibzip2 -v files.tar
探す！ -name 'files.tar.bz2' -type f -exec rm -f {} +
まず、並列 bzip ユーティリティ以外のすべてを含む、files.tar という名前の tar ファイルが作成されます。次に、mpibzip2 実行可能ファイルを起動し、files.tar.bz2 という圧縮アーカイブを生成します。最後に、files.tar.bz2 を除くすべてのファイルが削除されます。これにより、個々のファイルと圧縮アーカイブの両方がクラウドストレージにアップロードされなくなります。
mpirun 呼び出しの -np 引数は、クラスター内のコアの数を反映する必要があることに注意してください。ここでは、コマンドは 16 ニッケルコアクラスター上で実行されています。
さらに注意すべき点は、Windows はデフォルトでは bz2 または tar ファイルをサポートしていないことです。 7-Zip をインストールすると、この形式と他の多くの形式のサポートを追加できます。
簡単なテストとして、2.1 ファイルにまたがる 369 GB 相当の出力データを含む圧縮アーカイブを OpenFOAM ジョブから構築し、結果のファイルをクラウドストレージにアップロードしました。

ベースラインとして、非圧縮 tar ファイルを構築しました。また、tar コマンドで -z フラグを使用して、gzip 圧縮 tar ファイルの作成も試みました。最後に、2、8、および 16 ニッケルコアを使用して bz32 圧縮アーカイブを構築してみました。
当然のことですが、ベースラインのケースでは、アーカイブの構築にかかる時間はごくわずかで、全体時間の大部分はより大きなファイルのアップロードに費やされます。ファイルを圧縮すると、全体的な時間の内訳が逆転し、時間の大部分がファイルの圧縮に費やされます。また、当然のことですが、複数のコアを利用すると、tar コマンドに付属するシングルコアの gzip サポートを使用するよりも大幅に高速化されます。約 16 コアでは、全体の時間はベースラインの場合とほぼ同じになります。
ただし、圧縮ステップの実際の効果は、圧縮された bz2 ファイルが非圧縮の tar よりもほぼ 5 倍小さい (439 MB 対 2.1 GB) ため、ユーザーが出力をローカルワークステーションにダウンロードしようとすると明らかになります。
繰り返しになりますが、後処理と視覚化をできるだけクラウドにプッシュすることが、データ転送を最小限に抑える最善の方法であると信じています。ただし、多数の出力ファイルが必要な場合は、事前に圧縮アーカイブを準備するために少し時間を費やすことで、多くの場合、転送時間を大幅に短縮できます。将来的には、この投稿で説明した手動手順の多くを自動化し、よりシームレスなプロセスにする予定です。乞うご期待！

ライアン・カネシロ

すべての投稿を見る

クッキー	演奏時間	説明
AWSALBCORS	7日	このCookieはアマゾンウェブサービスによって管理され、負荷分散に使用されます。
cookielawinfo-チェックボックス-広告	1年	GDPR Cookie Consentプラグインによって設定されたこのCookieは、「広告」カテゴリのCookieに対するユーザーの同意を記録するために使用されます。
cookielawinfo-チェックボックス-分析	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「分析」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-機能	11か月間	Cookieは、「機能」カテゴリのCookieに対するユーザーの同意を記録するためにGDPRCookieの同意によって設定されます。
cookielawinfo-checkbox-Necessary	11か月間	このCookieはGDPR Cookie Consentプラグインによって設定されます。 Cookieは、「必要」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-その他	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「その他」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-パフォーマンス	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「パフォーマンス」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
visible_cookie_policy	11か月間	CookieはGDPR Cookie Consentプラグインによって設定され、ユーザーがCookieの使用に同意したかどうかを保存するために使用されます。個人データは保存されません。

クッキー	演奏時間	説明
__cf_bm	30 minutes	Cloudflareによって設定されたこのCookieは、Cloudflareボット管理をサポートするために使用されます。
クッキー	2年	LinkedInは、ブラウザIDを認識するために、LinkedInの共有ボタンと広告タグからこのCookieを設定します。
長い	セッション	LinkedInは、ユーザーの言語設定を記憶するようにこのCookieを設定します。
LIDC	1日	LinkedInは、データセンターの選択を容易にするためにlidccookieを設定します。
プレイヤー	1年	Vimeo は、この Cookie を使用して、Vimeo から埋め込みビデオを再生するときにユーザーの設定を保存します。

クッキー	演奏時間	説明
AWSALB	7日	AWSALBは、セッションをターゲットにマッピングするためにアマゾンウェブサービスによって設定されるアプリケーションロードバランサーCookieです。
同期アクティブ	決して	この Cookie は Vimeo によって設定され、訪問者のビデオコンテンツの好みに関するデータが含まれているため、Web サイトは好みの音量やビデオ品質などのパラメータを記憶します。

クッキー	演奏時間	説明
_ga	2年	GoogleAnalyticsによってインストールされた_gacookieは、訪問者、セッション、およびキャンペーンデータを計算し、サイトの分析レポートのサイト使用状況を追跡します。 Cookieは情報を匿名で保存し、ランダムに生成された番号を割り当てて、一意の訪問者を認識します。
_gat_UA-32985745-1	1 minute	ウェブサイトの所有者が訪問者の行動を追跡し、サイトのパフォーマンスを測定できるようにするために、GoogleAnalyticsとGoogleTagManagerによって設定された_gatcookieのバリエーション。名前のpattern要素には、関連するアカウントまたはWebサイトの一意のID番号が含まれています。
_gcl_au	3か月間	Google Tag Managerによって提供され、サービスを使用するWebサイトの広告効率を実験します。
_gid	1日	GoogleAnalyticsによってインストールされた_gidcookieは、訪問者がWebサイトをどのように使用しているかに関する情報を格納すると同時に、Webサイトのパフォーマンスの分析レポートを作成します。収集されるデータには、訪問者の数、ソース、匿名でアクセスするページなどがあります。
同意	2年	YouTubeは、埋め込まれたyoutube-videosを介してこのCookieを設定し、匿名の統計データを登録します。
utm_キャンペーン	過去	Google 広告サービスは、セッションキャンペーン値が存在する場合、この Cookie を設定して保存します。
utm_content	過去	この Cookie は、セッションコンテンツの値を保存するために使用されます (存在する場合)。
utm_source	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
utm_term	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
vuid	2年	VimeoはこのCookieをインストールして、Webサイトにビデオを埋め込むための一意のIDを設定することにより、追跡情報を収集します。

クッキー	演奏時間	説明
_fbp	3か月間	このCookieは、Webサイトにアクセスした後、FacebookまたはFacebook広告を利用したデジタルプラットフォームのいずれかで広告を表示するようにFacebookによって設定されます。
_mkto_trk	2年	Marketo によって提供されるこの Cookie には、ユーザーのサイトの使用状況を追跡するために使用される情報 (一意のユーザー ID など) が含まれています。 Marketo によって設定された Cookie は、Marketo によってのみ読み取り可能です。
fr	3か月間	Facebookは、FacebookピクセルまたはFacebookソーシャルプラグインを備えたサイトで、Web全体のユーザーの行動を追跡することにより、ユーザーに関連する広告を表示するようにこのCookieを設定します。
IDE	1年24日	Google DoubleClick IDE Cookieは、ユーザーがWebサイトを使用して関連する広告を表示する方法に関する情報を、ユーザープロファイルに従って保存するために使用されます。
Personalization_id	2年	Twitter は、ソーシャルメディアの機能を統合および共有するためにこの Cookie を設定し、追跡とターゲティングのためにユーザーが Web サイトをどのように使用するかに関する情報も保存します。
test_cookie	15 minutes	test_cookieはdoubleclick.netによって設定され、ユーザーのブラウザがCookieをサポートしているかどうかを判断するために使用されます。
utm_medium	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
VISITOR_INFO1_LIVE	5月27日	ユーザーが新しいプレーヤーインターフェースを取得するか古いプレーヤーインターフェースを取得するかを決定する帯域幅を測定するためにYouTubeによって設定されるCookie。
YSC	セッション	YSC CookieはYoutubeによって設定され、Youtubeページに埋め込まれたビデオのビューを追跡するために使用されます。
yt-リモート接続デバイス	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt-リモートデバイスID	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt.innertube :: nextId	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。
yt.innertube ::リクエスト	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。

クッキー	演奏時間	説明
_chtbl	セッション	説明はありません。
_dtses	30 minutes	説明はありません。
_dtuid	10年	説明はありません。
BIGipServersj30web-nginx-app_https	セッション	全く説明しない
email	過去	説明はありません。
gclid	過去	全く説明しない
ハンドル ip	1月	説明はありません。
handle_landing_page	1月	説明はありません。
handle_original_ref	過去	説明はありません。
ハンドル参照	過去	説明はありません。
handle_url	1月	説明はありません。
li_gc	2年	全く説明しない
muc_ads	2年	全く説明しない
ユーザ名	過去	説明はありません。

Rescale プラットホーム

概要

HPC & AI ソフトウェア

HPC & AI アーキテクチャ

セキュリティ&コンプライアンス

エコシステム統合

価格（英語）

HPC as a Service

インテリジェントバッチ

エラスティック・クラウド・ワークステーション

ストレージ・ファブリック

エンタープライズ管理

チーム管理

パフォーマンス管理

持ち込みソフトウェアをクラウドで利用

デジタルエンジニアリング

AI の物理学

データ管理

計算パイプライン

著者

類似の投稿

ニュースレターの申込み