ジョブ実行状態のモニタリング

最終更新日2022年6月1日

概要

このページでは、Statusタブを使用してジョブの進捗を監視し、クラスタに関する情報をリアルタイムで取得する方法を説明します。

Status page
図1:Statusタブ

このタブは、ジョブを実行したり開いたりする際に、画面左側のStatusを選択することで表示されます。

ジョブの状況

ジョブが実行されると、5つの段階を経て正常に終了することが示されます。キューイング、入力の検証、クラスタの起動、ジョブの実行、クラスタの停止です。

これらのジョブステート中にエラーが発生した場合、チェックマークアイコンの代わりに赤いXが表示されます。これらのジョブステートでエラーが発生した場合は、Rescale Supportまでご連絡ください。

ジョブログ

ジョブログには、さらに詳細なステータスが記載されています。典型的なログ出力の例をここに示します。

basic-job-logs.png
図2:ログ出力

複数の実行からなるジョブ(例:実験計画法、最適化)の場合、個々の実行が開始されるタイミングが表示されます。

doe-job-logs.png
図3:個別実行時のログ出力

クラスタの状況

Cluster Statusセクションでは、ジョブが実行されているクラスタに関する最新の情報を得ることができます。ジョブが正しく実行されなかったり、特に時間がかかったりする場合、このセクションには潜在的な問題を診断するのに役立つモニターが含まれています。

cluster-status.png
図4:クラスタの状態をリフレッシュする

例えば、Avg Free Memoryが特に低かった場合、クラスタがシミュレーションの要件を満たすのに十分なメモリにアクセスできなかったことを示している可能性があります。複数のノードで実行している場合、各ノードの状態が別々の行で表示されます。

ライブテーリング

ライブテーリングにより、シミュレーションの進行状況をリアルタイムで監視し、ソルバーによるランタイムファイルの更新を追うことでソリューションが適切に発展することを確認することができます。Active Runsテーブルの下のリストからケースを1つ選択し、隣の列でそのケースに関連するファイルをクリックすると、選択したファイルの最新行が表示されます。

Job logs 3
図5:ライブテーリング

表示されるリストは、シミュレーションの開始と停止によって変化しますが、表示されるファイルのリストは、最新のファイルの内容にアクセスするために、Refreshボタンを使用して手動でリフレッシュする必要があります。ライブテーリングは、800KB以下のファイルに限定されます。

ランタイム中のファイルダウンロード

実行時にマウスカーソルをLive Tailingウィンドウに置くと、下図のようにLive Tailingウィンドウの右上にいくつかのオプションが表示されます。左のDownloadボタンは、この指示を出した時点の、この1つのファイルをダウンロードすることができます。

実行中の全ファイルをダウンロードする場合は、スナップショットの説明に従ってください。残りのボタンで、ファイルの内容を更新したり、ウィンドウをフルスクリーンに拡大したり、表示する行数を選択したりすることができます。

Number of lines
図6:ライブテーリング

個々の実行中のジョブの停止または完了

進行中の個々のジョブを停止する場合は、Active RunsテーブルのRuns列で番号の横にあるXをクリックします。

stop-individual-run.png
図7:アクティブラン

この方法で個々のジョブを停止させると、以下のようなダイアログウィンドウが表示されます。Stopを選択した場合、この実行のファイルはStopコマンドを発行したときの状態でアップロードされます。これにより、以降のジョブで入力ファイルとして使用することができます。

Screen Shot 2022 06 03 at 2.23.24 PM
図8:停止ランの確認

停止を選択したランがすでにワークフローを完了している場合、以下のようなダイアログが表示されることがあります。この場合、このダイアログでStopをクリックしても安全です。このランで使用したファイルがアップロードされます。

Screen Shot 2022 06 03 at 2.26.28 PM
図9:リストア警告

個々のランではなく、ジョブ全体を停止したい場合は、以下のようなStopボタンを使用します。ジョブ内の完了したランと部分的に完了したランのファイルは、あなたに代わってアップロードされます。まだ開始されていないランは起動されません。

Screen Shot 2022 06 03 at 1.22.21 PM 2
図10:停止ボタン

このStopボタンでジョブ全体を終了させると、以下のようなダイアログが表示されます。

Screen Shot 2022 06 03 at 1.26.47 PM 1
図11: 再起動時の警告

この方法でジョブを中断し、クラスタをシャットダウンすると、以下のようにUser requested…としてジョブステータス出力ログに記録されます。

stopping-job-status.png
図12:ステータスとジョブのログ

次のステップ

ジョブが完了し、ステータスの監視が終了すると、Resultsページが開き、ログファイル、変数、図化ファイル、グラフなどの生成ファイルのリストが表示されます。

Screen Shot 2022 06 03 at 2.32.46 PM
Figure 12: Results page

ジョブ結果の表示と管理について詳しくは、ジョブ結果の管理のトピックを参照してください。