작업 진행 상황을 저장하기 위한 체크포인트
장기 시뮬레이션을 위한 체크포인트 저장
체크포인트란 무엇입니까?
체크포인트는 실행 중인 데이터에서 필요한 데이터를 저장하는 프로세스입니다. 시뮬레이션시뮬레이션은 실험, 테스트 시나리오 및 제작입니다. 더 보기, 일반적으로 작업을 다시 시작하거나 시스템 오류가 발생한 경우 안전한 지점으로 구현됩니다.
체크포인트에 대한 모범 사례
미리 계획
- 많은 소프트웨어 애플리케이션은 시뮬레이션 체크포인트/재시작을 위한 옵션을 제공합니다. 시뮬레이션을 시작하기 전에 관련 체크포인트가 있는지 확인하세요.
FLAGS
,ON
. - 모든 응용프로그램에는 서로 다른 명명법과 형식이 있다는 점에 유의하는 것이 중요합니다. 사용 중인 애플리케이션에 적합한 플래그가 있는지 확인하세요.
- 또는 Rescale 플랫폼에는 기본 체크포인트 기능이 있습니다. 스냅 사진, 이를 통해 사용자는 중간 파일을 쉽게 저장할 수 있습니다. 이 방법은 다시 시작하는 데 적합하지 않습니다.
소프트웨어 기반 체크포인트 및 재시작 절차
- Abaqus – 시뮬레이션을 다시 시작하는 Abaqus 튜토리얼
- Converge – Converge 작업을 수동으로 다시 시작하려면 어떻게 해야 합니까?
- ANSYS Fluent – 실행 중인 작업에 확인/종료 파일을 어떻게 삽입합니까?
- ANSYS CFX – 실행 중인 작업에 중지/다시 시작 파일을 어떻게 삽입합니까?
- Star-CCM+ – 실행 중인 작업에 체크포인트/중지 파일을 어떻게 삽입합니까?
- LS-DYNA – LS-DYNA 재시작 튜토리얼
체크포인트 관련 정보만
- 시뮬레이션을 다시 시작하는 데 필요한 관련 정보만 저장하는 것이 좋습니다.
- 데이터를 과도하게 쓰면 다음과 같은 결과가 발생할 수 있습니다.
Out of Memory
관련 시스템 오류가 발생하거나 시뮬레이션 프로세스가 느려집니다. - 일반적으로 대부분의 응용 프로그램에서는 시뮬레이션을 다시 시작하는 데 사용할 수 있는 다시 시작 파일 작성을 허용합니다. 예를 들어 Abaqus는 다음과 같이 씁니다.
.rst
마지막으로 계산된 반복/단계에서 시뮬레이션을 다시 시작하는 데 사용할 수 있는 파일입니다.
모니터링 시뮬레이션
- 장기 작업 시뮬레이션의 경우 정기적으로 작업을 모니터링하는 것이 좋습니다. 그렇게 하면 발생할 수 있는 잠재적 오류를 포착할 수 있습니다.
- 오류 식별 외에도 정기적인 모니터링을 통해 진행 상황을 확인하고 오류 후에도 애플리케이션이 자동으로 중지되지 않는 경우 시뮬레이션을 중지할 수 있습니다.
다음을 피하십시오
체크포인트가 너무 자주 발생함
- 과도한 체크포인트는 사용 가능한 스토리지를 차지합니다.
클라우드 예Amazon 가상 머신 더 보기. 이로 인해 시뮬레이션이 중단되고 메모리 부족 기반 시스템 오류가 발생합니다. - 출력 파일을 과도하게 작성하면 시뮬레이션 프로세스 속도가 느려지고 전체 작업 시간이 늘어납니다.
체크포인트 없음
- 정기적인 체크포인트를 수행하지 못하면 시스템 오류가 발생할 경우 진행 상황과 데이터가 손실될 수 있습니다.
- 예를 들어 며칠 동안 시뮬레이션을 실행하는 경우 시뮬레이션 시간에 몇 시간마다 체크포인트를 지정하는 것이 좋습니다.