슈퍼컴퓨터를 관통하는 바이너리 코드가 있는 환상적인 대칭형 데이터 센터 룸
| IT/HPC 관리

고성능 컴퓨팅 시스템 관리를 위한 주요 팁

HPC 배치 작업을 성공적으로 실행하려면 팀은 일정, 보안, 문제 해결 및 새로운 클라우드 요구 사항을 계획해야 합니다.

Rescale의 엔지니어링 팀은 관리의 복잡성을 해결하는 데 전념하고 있습니다. 고성능 컴퓨팅(HPC) 하이브리드 및 멀티 클라우드 컴퓨팅 시대의 시스템입니다.

R&D를 위한 HPC의 기본은 디지털 시뮬레이션 또는 기타 종류의 분석을 수행하기 위한 컴퓨팅 작업을 생성하고 관리하는 것입니다. 따라서 Rescale 엔지니어링 팀의 주요 초점 영역은 시뮬레이션 작업 또는 기타 대규모 컴퓨팅 작업을 성공적으로 설정하고 실행하는 데 필요한 많은 작업을 자동화하는 것입니다.

두 부분으로 구성된 블로그 게시물 시리즈 중 두 번째 부분입니다(XNUMX부 읽기: “HPC 배치 작업 실행을 위한 모범 사례”)에서는 예약, 보안, 문제 해결, 클라우드 HPC에 대한 특정 요구 사항을 이해해야 하는 필요성 증가 등 HPC 배치 작업에 대한 보다 광범위한 관리 고려 사항에 대해 논의하겠습니다.

HPC 배치 작업 저글링

그래서 실행하려면 일괄 처리, 클라우드에서든 온프레미스에서든 하드웨어를 설정하고, 네트워크를 구성하고, 소프트웨어를 설정해야 합니다. 프로세스는 다르지만 이 모든 작업을 제대로 수행하려면 둘 다 HPC 전문 지식이 필요합니다.

특정 일괄 작업의 요구 사항에 비교적 익숙하다면 일반적으로 몇 시간 안에 모든 작업을 완료할 수 있습니다. 그러나 이는 그다지 현실적이지 않습니다. 왜냐하면 일반적으로 항상 동일한 종류의 배치 작업을 설정하지는 않을 것이기 때문입니다. 특정 애플리케이션에 맞게 컴퓨팅 환경을 구성해야 합니다. 일부 작업에는 높은 처리량이 필요하고 다른 작업에는 더 많은 병렬화가 필요합니다. 

각 HPC 배치 작업은 고유한 여정이며 시스템이 주어진 워크로드에 최적화되도록 모든 하드웨어 및 소프트웨어 구성 요소를 처리해야 합니다. 이는 새로운 유형의 HPC 작업을 구축하기 위해 처음부터 시작하는 것을 의미할 수 있으며, 진행하면서 몇 가지 교훈을 얻어야 할 수도 있습니다.

그리고 다음 작업은 방법을 설정하는 것입니다. 이 모든 배치 작업을 예약하세요 따라서 우선순위가 더 높은 직업을 가진 사람들은 마감일을 지키기 위해 작업을 완료합니다. 그리고 지속적인 HPC 배치 작업 흐름을 처리할 때 수행해야 하는 완전히 다른 수준의 구성 및 프로비저닝이 필요합니다.

또한 R&D 팀이 사용하는 애플리케이션 수에 따라 새로운 버전의 소프트웨어를 설정하고 지원해야 합니다. 클러스터된 하드웨어에서 제대로 작동하도록 새 애플리케이션에 대한 상당한 유지 관리 및 조정이 필요합니다.

이상적으로는 클라우드에서든 온프레미스에서든 주기적으로 하드웨어를 새로 고쳐야 합니다. 매달 새로운 칩이 시장에 출시됩니다. 항상 더 빠른 경주용 자동차가 출시됩니다. 새로운 혜택을 누리는 것이 가장 좋습니다. Arm 기반 CPU 더 큰 에너지 효율성을 얻으려면 GPU를 통한 순수한 병렬화 성능이 필요할 수도 있습니다. 그래서 그것은 유지하고 관리해야 할 또 다른 것입니다.

그리고 시스템의 지속적인 유지 관리가 있습니다. 스케줄러가 때때로 잘못된 상태가 될 수 있으므로 직접 가서 수정해야 합니다. 원하는 방식으로 모든 것을 설정하고 실행한 후에도 클라우드 기반 및 온프레미스 HPC 모두에 대한 유지 관리 부분이 많이 있습니다.

잘못된 HPC 배치 작업의 비용

컴퓨팅 환경이 올바르게 설정되어 있지 않은 경우 시스템의 결함, 이로 인해 작업이 완료되지 않거나 시뮬레이션 또는 기타 분석이 잘못 완료될 수 있습니다. 

이는 어떤 제품을 디자인하든 극적인 의미를 갖습니다. 시스템에서 잘못된 데이터가 나오는 경우, 특히 오류로 표시되지 않는 잘못된 데이터인 경우, 이는 제품 개발이나 규정 준수에 있어 주요 문제가 될 수 있습니다. 당신이 깨닫지 못한 결함이 있는 제품을 만들 수도 있습니다.

또한 오류가 발생하고 소프트웨어가 이를 호출하는 경우에도 모든 작업이 손실됩니다. 그런 다음 이를 수정하고 시뮬레이션을 다시 실행해야 합니다. 그리고 그것이 하드웨어 결함이라면 훨씬 더 실망스럽습니다. 왜냐하면 그러한 종류의 오류는 판단하기가 매우 까다로울 수 있기 때문입니다. 노드 간 통신과 동일합니다. 이로 인해 팀이 결함을 찾지 못하고 시뮬레이션을 다시 실행하고 다시 중단되어 비용과 시간이 많이 소요되는 문제 해결 프로세스를 반복하게 되는 경우가 많습니다.

따라서 전반적으로 HPC 배치 작업이 올바르게 설정되지 않으면 작업이 실패하거나 부정확해져서 시간과 비용이 소모되거나 회사가 위험에 빠질 수 있습니다.

이에 대한 예는 클라우드 제공업체 파트너 중 하나였습니다. 일부 제품에는 일관된 버전의 펌웨어가 설정되어 있지 않았습니다. 인피니밴드 스위치. 네트워킹 라이브러리는 해당 특정 컴퓨팅 클러스터의 일괄 작업에서 48시간 동안 무작위로 실패합니다. 

스위치에 있는 그런 종류의 펌웨어는 스택에 꽤 아래에 있습니다. 애플리케이션의 출력만 보고 네트워크 펌웨어에 결함이 있다는 것을 알 수는 없습니다. 이러한 결함을 보면 실패했다는 것을 알 수 있습니다. 그러나 HPC 시스템의 모든 계층으로 인해 스택의 어느 부분에서 발생하고 있는지 알 수 없는 경우가 많습니다.

따라서 디버깅 문제가 있으며 이는 매우 시간 집약적일 수 있습니다. 한 번만 발생하면 큰 문제가 아닐 수도 있지만, 다양한 워크로드에 대해 하루에 몇 번씩 오류가 발생하는 경우 잠재적으로 많은 시간 손실과 함께 많은 시뮬레이션 데이터가 폐기될 수 있습니다.

HPC 작업이 온프레미스 및 클라우드에서 안정적으로 실행되도록 하려면 네트워킹, 시스템 관리, 스토리지, 데이터 센터 관리 및 복잡한 애플리케이션 유지 관리를 담당하는 HPC 전문가 팀이 필요합니다. 이는 HPC 시스템의 신뢰성과 효율성을 보장하는 데 필요한 많은 기술 리소스이지만 직접 수행하는 경우 HPC 관리 모범 사례에 필요한 것입니다.

R&D 데이터 보안

물론 보안은 HPC에 있어 가장 중요한 요소입니다. HPC 시스템에는 일반적으로 조직의 가장 민감한 설계 및 제품 정보가 저장됩니다.

보안을 관리하려면 조직 내에서 컴퓨팅 환경을 얼마나 개방적으로 제공할지에 따라 달라집니다. 다양한 유형의 사용자 액세스를 고려해야 하며, 승인된 사용자가 시뮬레이션과 데이터를 쉽게 사용할 수 있도록 하면서 조직의 다른 부분이나 심지어 조직 외부로 마이그레이션하거나 "유출"되지 않도록 해야 합니다.

그리고 이 모든 것은 파일 시스템 수준이나 시뮬레이션 데이터를 저장하는 모든 위치에서 적절하게 설정되고 유지되어야 합니다. 따라서 다중 사용자 환경에서 공유 파일 시스템을 안전하게 설정하고 관리하는 방법을 알아야 합니다. 이는 HPC 팀에 필요한 또 다른 기술입니다. 

멀티 클라우드 관리

물론 클라우드는 거의 무제한의 온디맨드 고성능 컴퓨팅 용량을 제공하여 기존 온프레미스 HPC 데이터 센터의 가장 큰 문제를 해결합니다. 그러나 멀티 클라우드 HPC 컴퓨팅은 새롭고 똑같이 도전적인 기술적 복잡성을 가져옵니다.

HPC 팀은 다양한 클라우드 제공업체에서 코드형 인프라를 관리하는 방법을 알아야 합니다. 클라우드 제공업체는 인터페이스 및 구성과 상호 작용하는 방법이 상당히 다릅니다.

클라우드 공급자마다 배치 작업을 지원하고 노드를 연결하는 네트워크 패브릭에서 짧은 대기 시간을 보장하기 위해 클러스터를 구축하기 위해 컴퓨팅을 조정하는 방법이 다릅니다. 대부분의 경우 각 CSP마다 완전히 다른 구성 세트가 있습니다.

이 중 많은 부분은 대기 시간이 짧은 네트워크에 대한 고려 사항을 살펴보면 여전히 약간의 틈새 시장에 불과하기 때문입니다. 특히 클라우드 HPC는 매우 새롭기 때문에 공급자 간에 강력한 표준이 없습니다. 각 클라우드 제공업체는 여전히 HPC 컴퓨팅의 복잡한 세계를 파악하고 있기 때문에 작업을 다르게 수행합니다. 따라서 클라우드 제공업체를 통해 올바른 구성을 요청하는 방법을 알아야 합니다. API 또는 해당 SDK 하드웨어에서 최적의 성능을 얻으려면.

예를 들어 AWS는 EFA(탄력적 패브릭 어댑터)라는 것을 제공합니다. 이것이 컴퓨팅 인프라에서 지연 시간이 짧은 네트워킹을 위한 AWS의 내부 솔루션입니다. Azure는 HPC 업계 표준 유형의 기술인 InfiniBand를 지원하지만 가상화도 되어 있습니다.

따라서 AWS와 Azure 모두에서 HPC 워크로드를 실행하려면 다양한 네트워킹 기술을 최대한 활용하기 위해 노드를 프로비저닝하는 방법을 파악해야 합니다. 그런 다음 각 패브릭에 대한 노드 클러스터를 연결한 후에는 구성 방법을 알아야 합니다. MPI 라이브러리 각 유형의 네트워크를 활용합니다.

네트워크 패브릭 외에도 하드웨어 자체 위에 있는 스택의 다른 부분도 구성해야 합니다.

그런 다음 지역 내 어느 HPC 클라우드 서비스 제공업체가 비용 대비 성능 측면에서 최상의 균형을 제공하는지 이해해야 합니다. 하루 중 시간에 따라 HPC 작업 실행 비용이 크게 달라질 수 있습니다. 그리고 HPC 슈퍼컴퓨팅 클러스터의 경우 특히 전문 인프라의 경우 클라우드 제공업체에 가용성이 제공되지 않습니다.

또한 모든 클라우드 서비스 계정을 주의 깊게 모니터링해야 합니다. 클라우드 리소스를 추적하지 못하고 종료하는 것을 잊어버린 항목에 대한 청구서를 받은 월말에만 클라우드 리소스를 찾는 것은 놀라울 정도로 쉽습니다. 

HPC 클라우드 서비스의 전체 시장과 자체 인프라 생태계에 대한 가시성과 통찰력을 확보하는 것은 현명한 쇼핑객이 되고 클라우드 비용을 제어하여 HPC 투자를 최대한 활용하는 데 필수적입니다.

설정하는 동안 HPC 관리 일괄 작업은 결코 단순하지 않으며 올바른 작업을 수행하는 것이 중요합니다. 이제 슈퍼컴퓨팅은 점점 늘어나는 강력한 디지털 기술을 지원하는 데 필수적입니다. 모델링 및 시뮬레이션 과학 연구와 엔지니어링을 가상화하는 소프트웨어입니다. 이러한 디지털 R&D는 이제 미래 혁신의 기반이 되고 있습니다. 고성능 컴퓨팅을 마스터하는 기업은 제품 개발 노력에서 점점 더 많은 이점을 갖게 될 것입니다.

전단지에 포함된 링크에 대해 더 알아보기 Rescale의 지능형 배치 기능
모든 고성능 컴퓨팅 작업이 제대로 작동하는지 확인하세요.
빠르고 효율적이며 신뢰할 수 있는 올바른 실행 방법을 설정합니다.

저자

  • 마크 휘트니

    Mark Whitney는 Rescale의 엔지니어링 이사입니다. 그의 전문 분야에는 고성능 컴퓨팅 아키텍처, 양자 정보 연구, 클라우드 컴퓨팅이 포함됩니다. 그는 캘리포니아 대학교 버클리 캠퍼스에서 컴퓨터 과학 박사 학위를 취득했습니다.

비슷한 게시물