Rescale: 데이터 문제 최소화

클라우드에서 HPC를 수행할 때 엔지니어와 과학자가 처리해야 하는 워크플로 작업 중 하나는 대량의 데이터를 처리하는 것입니다. 엔지니어가 자주 묻는 질문은 "나에게 유용한 데이터는 무엇이며 이를 어떻게 기능적 형태로 표현할 수 있습니까?"입니다. 모든 데이터가 클라우드에 저장되면 데이터가 생성되고 실제 활용되기까지의 시간을 최소화하는 것이 필수적이다. 단순히 기가바이트의 데이터를 다운로드하는 것은 선호되거나 가장 효율적인 방법이 아닙니다.
물론 다양한 애플리케이션은 서로 다른 목표를 향해 노력합니다. 때때로 엔지니어는 모든 출력 데이터를 로컬에 저장하고 쉽게 액세스할 수 있기를 원합니다. 어떤 경우에는 클라우드가 프로젝트 데이터를 저장하는 편리한 방법임이 입증되었으며 엔지니어는 언제든지 몇 달 전에 실행된 작업 하위 집합의 날짜를 다운로드할 수 있습니다. 그러나 HPC 작업의 처리 시간은 필수적입니다. 데이터 집약적인 작업의 처리 시간을 최소화하는 방법에는 여러 가지가 있습니다. 다음은 Rescale 고객이 데이터 처리 방법을 최적화하여 시간을 최소화하는 몇 가지 실제 방법입니다.
LS-DYNA 프리/포스트
LS-DYNA 작업은 대규모 데이터 출력을 생성할 수 있습니다. 작업에서 생성되는 데이터는 사용자에게 달려 있습니다. 실행이 하드 드라이브에 쓰는 빈도와 기록되는 데이터는 사용자가 구성할 수 있습니다. 그러나 일반 엔지니어는 어떤 데이터가 필요할지 100% 확신할 수는 없지만 결국 무엇을 사용하게 될지는 잘 알고 있다고 생각합니다. 엔지니어는 가능한 한 많은 데이터를 바이너리 파일에 저장하기로 결정했으며 Rescale의 편리한 래퍼 스크립트를 사용하여 LS-DYNA 작업을 실행하는 방법을 알고 있습니다.

ls-다이나 -n -s ; -i -p

그러나 엔지니어는 Rescale에 내장된 명령줄 후처리 옵션을 사용하고 '-d' 플래그를 사용하여 입력 파일을 단일 .db 파일로 후처리함으로써 다운로드 대역폭을 절약합니다.

ls-dyna -n 16 -s 4 -i big-model.k -p 단일 -d create_postdb.inp

그는 필요한 정보(변위, 소성 변형, Von Mises 응력 및 두께)를 알고 있으므로 create_postdb.inp 파일은 다음과 같을 수 있습니다.

d3plot 출력.db state_on = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 변위 플라스틱_스트레인 von_mises_stress 두께

이제 엔지니어는 원하는 정보가 모두 포함된 output.db를 다운로드하기만 하면 됩니다. 따라서 35GB의 데이터 대신에 그는 단일 1GB 파일을 다운로드하고 있습니다. 파일을 다운로드하기 위해 XNUMX시간 XNUMX분을 기다리는 대신 필요한 모든 데이터를 다운로드하는 데 걸리는 시간이 단 몇 분으로 단축되었습니다.
클러스터 내 사후 처리
다른 엔지니어가 실행 중입니다. CFD 수렴. 그녀의 작업이 방금 완료되었으며 40GB의 데이터가 생성되었습니다. 다행스럽게도 그녀는 Rescale 설정 페이지에서 SSH 자격 증명을 설정했습니다.
프레젠테이션1
그녀는 Rescale이 그녀의 모든 Rescale 노드에 배치한 공개 키를 입력하고 CIDR 규칙을 설정하여 그녀의 노드가 그녀의 네트워크에서만 액세스 가능하도록 했습니다. 작업 로그는 클러스터에 연결하는 방법을 알려줍니다.
프레젠테이션2
이제 터미널에서 명령을 복사하여 붙여넣거나 Windows에서 퍼티를 사용하여 클러스터에 쉽게 SSH를 통해 연결할 수 있습니다. 자신의 노드에 로그인하면 간단히 다음을 실행합니다.

변환 후

그러면 그녀가 선택한 데이터 세트를 Tecplot, Ensight 또는 기타 플롯 가능한 형식으로 변환할 수 있는 Converge CFD의 편리한 후처리 도구가 시작됩니다. 이제 그녀는 scp 또는 sftp를 사용하여 이러한 작은 플롯 파일을 로컬 하드 드라이브에 다운로드할 수 있습니다.
모든 데이터 다운로드를 '동기화'하고 싶지 않습니다.
첫 번째 엔지니어는 Rescale에서 많은 작업을 수행하지만 매일 아침 사무실에 출근하면 많은 작업이 하룻밤 사이에 완료된다는 사실을 깨닫게 됩니다. 다행스럽게도 그는 모든 출력 파일을 수동으로 다운로드하는 대신 작업이 끝날 때마다 하드 드라이브에 파일을 다운로드할 수 있는 Rescale의 편리한 Java 기반 명령줄 유틸리티를 실행했습니다.
Rescale에서 API 키를 요청한 후 그는 다음과 같은 간단한 명령을 사용하여 업무용 컴퓨터에서 명령줄 유틸리티를 시작했습니다.

자바 -jar rescale.jar 동기화 -p abcdef1234567890 -d 600

이 명령은 Rescale의 API를 사용하여 10분마다 새로 완료된 작업이 있는지 확인합니다. 파일이 있는 경우 Rescale은 해당 파일을 로컬 드라이브에 자동으로 다운로드합니다. 명령줄 유틸리티는 출력 데이터를 효율적으로 다운로드하고 암호 해독(멀티스레드)합니다. 따라서 우리 엔지니어가 자고 있는 동안 그의 회사 네트워크는 완성된 모든 작업을 그의 업무 컴퓨터에 다운로드하여 다음 날 더 생산적으로 보낼 수 있도록 열심히 노력했습니다.
출시 예정: GUI 기반 후처리
두 번째 엔지니어는 이미 ssh를 통한 X11 전달을 사용하여 클라우드에서 기본적인 GUI 기반 후처리를 수행할 수 있지만 성능이 더 좋으면 매우 유용할 것이라고 생각합니다. 다행스럽게도 Rescale이 GUI 기반 후처리를 위한 원격 데스크톱 솔루션을 적극적으로 개발하고 있기 때문에 오래 기다리지 않아도 됩니다.
데이터를 스마트하게 활용하기
클라우드의 데이터에 있어서 가장 중요한 점은 원하는 도구를 최대한 효율적으로 사용하는 것입니다. LS-DYNA 및 Converge CFD는 사용하기 쉬운 명령줄 후처리 도구를 제공하는 유일한 소프트웨어는 아닙니다. Rescale에서 사용할 수 있는 다른 많은 도구도 이와 동일한 기능을 제공합니다.
“클라우드에서는 무엇을 하고, 로컬에서는 무엇을 하는가?”라는 질문 Rescale이 귀하의 기존 엔지니어링 프로세스에 어떻게 가장 적합한지 결정함으로써만 답을 얻을 수 있습니다. 때로는 온프레미스에서 모든 후처리를 수행하면서 모든 데이터를 온프레미스에 두는 것이 편리할 때도 있습니다. 그러나 두 엔지니어링 사례에서 입증된 것처럼 이러한 엔지니어링 작업 중 더 많은 부분을 클라우드로 이동할 수 있는 경우가 많습니다.
이러한 이유로 Rescale의 목표는 데이터 처리 문제를 가능한 한 최소화하는 데 필요한 모든 도구를 제공하는 것입니다.

저자

  • Mulyanto Poort
물얀토 푸어트

    부사장 HPC Mulyanto는 Rescale에서 애플리케이션 엔지니어링을 담당하고 있습니다. Rescale에 합류하기 전에 Mulyanto는 Mid-Michigan Research, LLC에서 소프트웨어 개발 및 기계 엔지니어로 7년간 근무하며 주요 엔진 제조 및 자동차 공급업체를 위한 전문 연구 컨설팅을 수행했습니다. Mulyanto는 이전에 미시간 주립대학교에서 연구 전문가로 근무하며 맞춤형 데이터 및 이미지 분석 도구 개발에 주력했습니다. Mulyanto는 미시간 주립대학교에서 기계공학 학사 및 석사 학위를 취득했습니다.

비슷한 게시물