バッチジョブのトラブルシューティング

概要

このガイドでは、Rescaleプラットフォームでジョブをバッチ処理で実行しているユーザが遭遇する一般的なエラーの原因をいくつか紹介します。また、これらのエラーの診断方法についても説明します。また、これらのエラーを回避し、修正する方法についても説明します。

Job Statusページ

Job Statusページの出力を確認する Status: ページ
- ガントチャートでジョブ履歴を調べる
- コマンドは検証ステップ（Validating Input）を緑のチェックで適切に通過しているか？検証は、製品、システム、または... その他
  ジョブログにエラーメッセージが表示されていますか？ Stopping job (User terminated)… セクション？

Resultsページ

process_output.log

ジョブが成功したかどうかにかかわらず、すべてのジョブに対して常に提案する最初のステップは、 process_output.logファイルを確認することです。このファイルには、実行中のソフトウェア解析手法からの標準出力が記録されています。また、潜在的なエラーメッセージも記録されます。

process_output.log ファイルを見つけるには、Job Results ページに移動します。結果ページ
検索バーでクエリする。
- 通常 log or process で十分な検索可能です。
Actions欄のスクリーンアイコンで process_output.log ファイルを表示します。の項目に表示されます。
- ファイルが大きすぎる場合は、まずファイルをダウンロードしてからテキストエディタで表示する必要がある場合があります
このログファイルを注意深く見て、警告やエラーメッセージを探します。
- ほとんどの場合、エラーはここで確認することができます。 エラーはここで特定できます

Exit Codes

重要なのは、 process_output.log ファイルの最後にある”exit code”です。解析メソッドがスムーズに実行され、エラーメッセージを出さずにきれいに終了した場合は、次のような結果が得られるはずです。

Exit with code 0

ジョブが code 0で完了することがありますが、これは単にエラーが発生せずにプロセスが実行されたことを意味します。もちろん、これはジョブが意図したとおりに実行されたことを保証するものではありません。プログラムが明示的なシステムエラー (メモリ不足、コアダンプ、ディスク容量不足など) に遭遇した場合、プロセスは XNUMX 以外の終了コードを生成します。遭遇する可能性のある一般的な終了コードジョブが意図したとおりに実行されたことを確認します。プログラムで明示的なシステムエラーが発生した場合 (つまり、メモリ不足、マルチコアプロセッサ内の個々の処理ユニット... その他

Exit Code	意味
1	一般的なエラーのキャッチオール
2	シェルビルトインの誤使用
126	呼び出されたコマンドが実行できない
127	コマンドが見つからない
128	終了時の引数が無効
128 + n	致命的なエラー信号 “n”
130	Ctrl-Cでスクリプトを終了させる
137	プロセスの明示的な終了やメモリ不足など、終了モードが未確定なもの
255 *	終了ステータス範囲外

もちろん、これらのエラーコードは最も有益なものではありませんが、デバッグの出発点となるものです。

デバッグの基本的な手順

故障のメカニズムは多岐にわたりますが、代表的な問題点とその診断・回避策を以下に示します。

入力ファイルの欠落

すべての必要なファイルが、個別に、または圧縮（zip、tarballなど）された入力ファイルデッキでジョブに含まれていることを確認します。

ファイルパスが正しくない

圧縮された入力ファイルデッキが適切なディレクトリパスに展開されることを確認する。
スクリプト、入力ファイル、その他のジョブ定義で相対ファイルパスを使用する。
Rescaleは、ソフトウェア設定ページで指定されたソフトウェアコマンドを、圧縮ファイルを解凍するのと同じ作業ディレクトリで実行します。 Command ソフトウェアの設定
- また、caseサブディレクトリ（例：
- zip/tar/etc コマンドが実行されるディレクトリのレベルの入力ファイル
- また、caseサブディレクトリ（例： run01_configB）を使用する場合は、解析ソフトウェアコマンドの前に、次のようにディレクトリを適切に変更することを確認してください： cd run01_configB && run_analysis
  - Rescaleプラットフォームでは、このようなワークフローは推奨されません。

共通のファイルシステムにアクセスする必要がある複数ノードのジョブ

ヘッドプロセスがファイル入出力とワーカープロセスとの通信を処理するほとんどの解析手法では、Rescaleはユーザが指定した入力ファイルをデフォルトで ~/workに配置します。しかし、一部の手法では、ワーカープロセスがノード上で起動し、共有ファイルシステムにもアクセスできることが必要です。

Rescaleプラットフォームでは、 ~/work/shared ディレクトリがジョブ内の全ての計算ノードにNFSマウントされます。
- Rescaleはこれらの分析手法のほとんどを識別し、デフォルトで ~/work/shared ディレクトリにジョブを開始します。
- しかし、ランタイムのカスタマイズやオプションにより、ノード上で動作するワーカープロセスが、入力ファイルへのアクセス、ランタイムライブラリのロード、出力ファイルの書き込みを必要とする場合があります。
　 Command ソフトウェアの設定 Software SettingsページのCommandの前に、moveとchange directoryのコマンドがあること。 &

mv * shared
cd shared
<run_analysis>

入力ファイルの読み込みエラー

入力ファイルが解析ソフトの期待通りに正しく構築されていることを確認する。
ソフトウェア設定」ページで、適切なソフトウェアのバージョンが選択されていることを確認します。
テキスト入力ファイルが適切な形式であることを確認する
- バッチコンピュートノードは一般にLinuxマシンです。テキストエディタの種類によっては、行末・ファイル末尾の文字のエンコードが異なる場合があります。
- Windowsのテキストエディタでは、Linuxが使用しない^M改行文字を含むファイルが作成されることがよくあります。 ^M Linux が使用しない改行文字
  - VI/VIMなどのテキストエディタでこれを置き換えるには、以下のコマンドでこれらの文字を置き換えることができます :%s/^M$//
  - 注： ^M はctrl-Vとctrl-Mで入力します。 ctrl-V & ctrl-M

解析方法から他のログファイルを調べる

Rescale Platformは標準出力メッセージを process_output.logに出力しますが、一部の分析手法では重要な情報を他のログファイルに出力します。
これらの出力ファイルの拡張子は通常”log”,”out”,”live”,”dat”ですが、解析方法によって異なる場合があります。ソフトウェアベンダーのドキュメントを参照してください。
これらのログファイルは通常ASCIIテキストファイルですので、右側の列のファイル名の隣にある小さな画面のアイコンを使って表示することができます。
- process_output.log ファイルと同様に、サイズが大きすぎる場合は、ローカルのワークステーションにダウンロードし、テキストエディタで表示してくださいワークステーションは、プロ向けに設計された強力なコンピュータシステムです。その他

ライブラリファイルの欠落

ジョブで使用されるカスタム・ライブラリ・ファイルに対して、プロセスが適切なアクセス権とパス定義を持っていることを確認してください。
Rescaleサポートは、お客様のアプリケーションのために追加のライブラリをインストールする必要がある場合があります。
- このようなメッセージが表示された場合は、にお知らせください。

システムリソースが不足している

シミュレーション・プロセスに十分な物理メモリとストレージがあることを確認するシミュレーションは実験であり、シナリオをテストし、作成することです... その他
- 一部のコードは解析に応じてランタイム中にメモリ・フットプリント・サイズを変更するため、スタートアップ時に十分なメモリを確保できない場合があります。
- 一部のコードは大量のスクラッチデータファイルを生成し、最終出力ファイルよりもストレージ・フットプリントが大きくなる場合があります。
Job Status ページの下部にある Cluster Status で空きメモリとディスク容量のモニターを確認 Status:
メッシュ/シミュレーションのサイズを小さくして、ジョブが正常に動作するか確認します
コア/ノード数を増やして実行物理メモリやストレージがより多い特殊コアタイプを選択します。

適切なライセンスアクセス

ソフトウェア設定のページで、ライセンス設定が正しく定義されていることを確認します。一般的に、これらはport@hostnameの形式になっています。 ソフトウェアの設定
process_output.log からわかるように、ライセンスファイルの機能をチェックアウトしていることを確認します。
- 実行しようとしているコマンドに、機能を確認するための正しいオプションが使用されているかどうかを確認します。
ライセンスサーバーの責任者である場合サーバーは、他のサーバーにサービスを提供するコンピュータープログラムです。その他:
- ライセンスが失効していないことを確認する
- ライセンスサーバーが起動していること、ネットワークにアクセスできることを確認します。
- 詳しくは、 SSHトンネル & IPフォワーディングのガイドをご参照ください。

ワークフローのデバッグ

本番運用を始める前に、ワークフローを確認するための小さなテストケースを立ち上げてください。
プリポストステップが解析オプション > コマンドに適切に統合されていることを確認します。 > Command
テストジョブを対話的に実行する
- 既存のコマンドを Command 　 sleep 3600
- ssh 計算ノードが起動したら、sshでログインする。従来のコンピューティングでは、ノードはネットワーク上のオブジェクトです。 ... その他
- 解析方法に適したディレクトリ~/work or ~/work/shared)
- インタラクティブにジョブを起動しようとする
- 成功した結果をもたらすコマンドをすべて記録する
- コマンドを適宜修正する Command
  - 　 Command コマンド入力ウィンドウでは、改行, ; ,&マークによるコマンドの区切りが可能です。 ; or &&
  - 注：&で区切られたコマンドは、前のコマンドがコード XNUMX で終了した場合のみ実行され、;に続くコマンドは、常に前のコマンドの後に実行されます。 && code 0 ;

これらの一般的なデバッグ手順でも問題が解決されない場合は、Rescaleサポートに連絡し、ジョブを共有してください。 .

クッキー	演奏時間	説明
AWSALBCORS	7日	このCookieはアマゾンウェブサービスによって管理され、負荷分散に使用されます。
cookielawinfo-チェックボックス-広告	1年	GDPR Cookie Consentプラグインによって設定されたこのCookieは、「広告」カテゴリのCookieに対するユーザーの同意を記録するために使用されます。
cookielawinfo-チェックボックス-分析	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「分析」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-機能	11か月間	Cookieは、「機能」カテゴリのCookieに対するユーザーの同意を記録するためにGDPRCookieの同意によって設定されます。
cookielawinfo-checkbox-Necessary	11か月間	このCookieはGDPR Cookie Consentプラグインによって設定されます。 Cookieは、「必要」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-その他	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「その他」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-パフォーマンス	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「パフォーマンス」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
visible_cookie_policy	11か月間	CookieはGDPR Cookie Consentプラグインによって設定され、ユーザーがCookieの使用に同意したかどうかを保存するために使用されます。個人データは保存されません。

クッキー	演奏時間	説明
__cf_bm	30 minutes	Cloudflareによって設定されたこのCookieは、Cloudflareボット管理をサポートするために使用されます。
クッキー	2年	LinkedInは、ブラウザIDを認識するために、LinkedInの共有ボタンと広告タグからこのCookieを設定します。
長い	セッション	LinkedInは、ユーザーの言語設定を記憶するようにこのCookieを設定します。
LIDC	1日	LinkedInは、データセンターの選択を容易にするためにlidccookieを設定します。
プレイヤー	1年	Vimeo は、この Cookie を使用して、Vimeo から埋め込みビデオを再生するときにユーザーの設定を保存します。

クッキー	演奏時間	説明
AWSALB	7日	AWSALBは、セッションをターゲットにマッピングするためにアマゾンウェブサービスによって設定されるアプリケーションロードバランサーCookieです。
同期アクティブ	決して	この Cookie は Vimeo によって設定され、訪問者のビデオコンテンツの好みに関するデータが含まれているため、Web サイトは好みの音量やビデオ品質などのパラメータを記憶します。

クッキー	演奏時間	説明
_ga	2年	GoogleAnalyticsによってインストールされた_gacookieは、訪問者、セッション、およびキャンペーンデータを計算し、サイトの分析レポートのサイト使用状況を追跡します。 Cookieは情報を匿名で保存し、ランダムに生成された番号を割り当てて、一意の訪問者を認識します。
_gat_UA-32985745-1	1 minute	ウェブサイトの所有者が訪問者の行動を追跡し、サイトのパフォーマンスを測定できるようにするために、GoogleAnalyticsとGoogleTagManagerによって設定された_gatcookieのバリエーション。名前のpattern要素には、関連するアカウントまたはWebサイトの一意のID番号が含まれています。
_gcl_au	3か月間	Google Tag Managerによって提供され、サービスを使用するWebサイトの広告効率を実験します。
_gid	1日	GoogleAnalyticsによってインストールされた_gidcookieは、訪問者がWebサイトをどのように使用しているかに関する情報を格納すると同時に、Webサイトのパフォーマンスの分析レポートを作成します。収集されるデータには、訪問者の数、ソース、匿名でアクセスするページなどがあります。
同意	2年	YouTubeは、埋め込まれたyoutube-videosを介してこのCookieを設定し、匿名の統計データを登録します。
utm_キャンペーン	過去	Google 広告サービスは、セッションキャンペーン値が存在する場合、この Cookie を設定して保存します。
utm_content	過去	この Cookie は、セッションコンテンツの値を保存するために使用されます (存在する場合)。
utm_source	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
utm_term	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
vuid	2年	VimeoはこのCookieをインストールして、Webサイトにビデオを埋め込むための一意のIDを設定することにより、追跡情報を収集します。

クッキー	演奏時間	説明
_fbp	3か月間	このCookieは、Webサイトにアクセスした後、FacebookまたはFacebook広告を利用したデジタルプラットフォームのいずれかで広告を表示するようにFacebookによって設定されます。
_mkto_trk	2年	Marketo によって提供されるこの Cookie には、ユーザーのサイトの使用状況を追跡するために使用される情報 (一意のユーザー ID など) が含まれています。 Marketo によって設定された Cookie は、Marketo によってのみ読み取り可能です。
fr	3か月間	Facebookは、FacebookピクセルまたはFacebookソーシャルプラグインを備えたサイトで、Web全体のユーザーの行動を追跡することにより、ユーザーに関連する広告を表示するようにこのCookieを設定します。
IDE	1年24日	Google DoubleClick IDE Cookieは、ユーザーがWebサイトを使用して関連する広告を表示する方法に関する情報を、ユーザープロファイルに従って保存するために使用されます。
Personalization_id	2年	Twitter は、ソーシャルメディアの機能を統合および共有するためにこの Cookie を設定し、追跡とターゲティングのためにユーザーが Web サイトをどのように使用するかに関する情報も保存します。
test_cookie	15 minutes	test_cookieはdoubleclick.netによって設定され、ユーザーのブラウザがCookieをサポートしているかどうかを判断するために使用されます。
utm_medium	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
VISITOR_INFO1_LIVE	5月27日	ユーザーが新しいプレーヤーインターフェースを取得するか古いプレーヤーインターフェースを取得するかを決定する帯域幅を測定するためにYouTubeによって設定されるCookie。
YSC	セッション	YSC CookieはYoutubeによって設定され、Youtubeページに埋め込まれたビデオのビューを追跡するために使用されます。
yt-リモート接続デバイス	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt-リモートデバイスID	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt.innertube :: nextId	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。
yt.innertube ::リクエスト	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。

クッキー	演奏時間	説明
_chtbl	セッション	説明はありません。
_dtses	30 minutes	説明はありません。
_dtuid	10年	説明はありません。
BIGipServersj30web-nginx-app_https	セッション	全く説明しない
email	過去	説明はありません。
gclid	過去	全く説明しない
ハンドル ip	1月	説明はありません。
handle_landing_page	1月	説明はありません。
handle_original_ref	過去	説明はありません。
ハンドル参照	過去	説明はありません。
handle_url	1月	説明はありません。
li_gc	2年	全く説明しない
muc_ads	2年	全く説明しない
ユーザ名	過去	説明はありません。

Rescale プラットホーム

概要

HPC & AI ソフトウェア

HPC & AI アーキテクチャ

セキュリティ&コンプライアンス

エコシステム統合

価格（英語）

HPC as a Service

インテリジェントバッチ

エラスティック・クラウド・ワークステーション

ストレージ・ファブリック

エンタープライズ管理

チーム管理

パフォーマンス管理

持ち込みソフトウェアをクラウドで利用

デジタルエンジニアリング

AI の物理学

データ管理

計算パイプライン

概要