| | | | | | |

대기열 문제 해결: Slurm-Rescale 커넥터로 온프레미스 HPC 사용자를 위한 원활한 하이브리드 클라우드 제공

그냥 크기 조정 발표 지원 Slurm 워크로드 관리자 원활한 클라우드 커넥터를 통해 Slurm을 사용하여 온프레미스 고성능 컴퓨팅(HPC) 클러스터를 관리하는 조직을 위한 하이브리드 클라우드로의 새로운 경로를 열어줍니다. Slurm은 널리 사용되는 오픈 소스 워크로드 스케줄러입니다. 2/3 특히 정부, 국립 연구소, 고등 교육 시스템을 위한 세계에서 가장 강력한 슈퍼컴퓨터 중 하나입니다. 

HPC 스케줄러, 대기열 및 온프레미스 하드웨어의 한계

기존의 온프레미스 컴퓨팅에서 스케줄러는 기술 스택의 중요한 부분이므로 많은 사용자가 컴퓨팅 작업을 위해 조직의 서버와 상호 작용할 수 있습니다. 스케줄러를 사용하면 사용자와 관리자는 명령을 사용하여 작업을 실행해야 하는 시기와 활용해야 하는 사용 가능한 리소스의 양을 모니터링하고 조작할 수 있습니다. 스케줄러를 사용하면 HPC 작업이 순차적이고 효율적인 방식으로 완료되어 지정된 하드웨어 세트 또는 '클러스터'의 하드웨어 활용도가 최대화됩니다. 여러 작업이 쌓이면 이 "일정"이 "대기열"이 되어 지연이 발생합니다. 온프레미스(고정) 컴퓨팅의 불편한 부작용으로 인해 과학자와 엔지니어는 작업에 필요한 리소스 용량이 확보될 때까지 기다리게 됩니다. 리소스 부족으로 인한 빈번한 지연은 R&D 및 상용화 일정에 해를 끼치며, 이는 클라우드로 확장하는 등 추가 하드웨어에 대한 액세스를 확장하는 데 중점을 두는 이유입니다. IT/HPC 관리자와 최종 사용자가 온프레미스 배포에 대한 용량 가용성과 활용도 간의 균형을 가장 잘 맞추는 방법에 대해 의견이 일치하지 않는 것은 너무나 흔한 일입니다.

기존 운영과 클라우드 기반 운영을 연결

클라우드 컴퓨팅은 사실상 무제한의 용량을 사용할 수 있어 대기열 문제를 크게 해결합니다. 시장 데이터에 따르면 클라우드 HPC 성장은 온프레미스보다 2~3배 더 빠르지만, 노후화된 많은 온프레미스 시스템은 오늘날에도 여전히 작동 중이며 스케줄러를 통해 관리되고 있습니다. 대부분의 조직(78%) 이미 사용을 시작했다고 말합니다. HPC용 클라우드 그러나 그들 중 다수는 이러한 인프라를 별도로 운영할 것입니다. 디지털 혁신을 진행 중인 많은 조직의 경우 풀 클라우드가 되는 것은 여전히 ​​어려운 목표이며 사용 가능한 모든 리소스를 완전히 활용할 수 있는 솔루션이 필요합니다. 한 가지 확실한 점은 컴퓨팅 요구 사항이 거의 줄어들지 않기 때문에 클라우드로의 확장이 클라우드 우선 HPC 운영 모델로 가는 첫 번째 단계인 경우가 많습니다. Slurm이 클라우드와 특수 CPU 및 GPU 아키텍처에 대한 지원을 확장함에 따라 Rescale의 고급 클라우드 HPC 자동화를 더 많은 고객에게 제공하기 위해 협력하기에 이상적인 스케줄러입니다.

Rescale 및 Slurm을 갖춘 진정한 하이브리드, 멀티 클라우드 HPC

처음부터 클라우드에서 HPC 사례를 구축하는 것은 미묘한 차이가 있으며, 특히 HPC에 대한 클라우드의 이점을 최대한 활용하는 경우에는 더욱 그렇습니다. 전체 규모를 확장하거나 축소할 수 있는 제어력과 유연성 보유 다중 클라우드 및 다중 아키텍처 워크로드 성능과 비용 효율성에 큰 영향을 미칩니다. IT 관리자는 온프레미스에서 HPC 운영을 완전히 제어하고 이해하는 데 익숙하며 클라우드를 통합하면 새로운 복잡성이 발생할 수 있습니다. 많은 포인트 솔루션이나 자체 개발 도구가 어려움을 겪고 있는 경우 Rescale은 컴퓨팅 스택 전반에 걸쳐 많은 일반적인 디지털 도구를 원활하게 연결합니다. Rescale과 공동 개발한 Slurm-connector RedLine 성능 솔루션 HPC 사용자와 관리자는 Rescale에 대한 사전 경험이 없어도 익숙한 Slurm 명령을 사용하여 AWS, Azure, Google 및 기타 하이퍼스케일 및 특수 클라우드 서비스 제공업체를 포함하여 원하는 클라우드에 작업을 제출할 수 있습니다.

Slurm-Rescale 커넥터 워크플로 – Slurm은 로컬 HPC에서 작업을 제어할 수 있지만 Rescale에 제출된 작업은 Slurm 명령의 추가 플래그를 사용하여 Rescale API와의 상호 작용을 통해 제어됩니다.

Slurm-Rescale 커넥터는 Rescale API를 사용하여 Slurm에서 Rescale 플랫폼으로 작업을 제출하는 기능을 보여줍니다. 커넥터 코드는 사용자가 Slurm 소스 코드에 액세스할 수 있도록 수정된 버전입니다. 리스케일 플랫폼 익숙한 Slurm 명령을 사용합니다. 이를 달성하기 위해 Slurm 저장소의 소스 코드를 별도의 브랜치로 분기하고 Rescale 특정 업데이트로 사용자 정의했습니다. 이는 Rescale에 의해 유지관리되며 새로운 Slurm이 출시될 때마다 업데이트됩니다. 워크로드의 하이브리드 오케스트레이션을 달성하기 위해 일반적인 Slurm 스크립트를 수정하고 확장하여 사용자 조직에서 설정한 정책을 기반으로 온프레미스 또는 Rescale 리소스로 워크플로를 분기합니다.

제약 없이 가속화된 디지털 R&D 지원

Rescale 사용자를 위한 이 추가 기능은 서로 다른 시스템을 운영하고 있거나 사용자 경험 변화에 대한 우려로 인해 클라우드를 유지하고 있던 많은 조직에 새로운 가능성을 열어줍니다. 작업 제출 및 모니터링을 위한 Slurm의 친숙한 명령을 사용하여 엔지니어와 과학자는 기존 리소스를 평소처럼 활용할 수 있으며 관리자는 필요에 따라 자동으로 클라우드로 전환하여 컴퓨팅 리소스 제약을 해결할 수 있습니다. 어느 IT 또는 HPC 관리자 누가 성공적인 배포를 했는지 하이브리드 클라우드 솔루션 1) 사용자 대기 시간을 2으로 줄이고 XNUMX) 기존 컴퓨팅 투자의 유효 수명을 극대화하는 인스턴트 영웅입니다. 일관된 워크로드 관리 경험을 보유하면 여러 컴퓨팅 환경에서 지속적인 운영을 보장할 수 있으며, Rescale의 추가된 성능 최적화를 통해 조직은 각 워크로드에 대해 최신 및 최상의 아키텍처를 선택할 수 있습니다.

높은 수준의 능력을 요구하는 조직의 경우 보안 및 규정 준수, 이제 ITAR, FedRAMP 및 ISO-27001과 같은 Rescale의 주요 표준을 보장하여 클라우드의 이점을 누릴 수 있습니다. Rescale은 FedRAMP 중간 인증을 갖춘 풀 스택 HPC를 위한 최초이자 유일한 플랫폼이며 공공 및 민간 부문 조직 모두가 퍼블릭 클라우드에 액세스할 수 있도록 보장하기 위한 추가 조치에 지속적으로 투자하고 있습니다.

Rescale에서 Slurm 시작하기

우리는 이 새로운 기능을 선보이게 되어 기쁘게 생각합니다. 수퍼 컴퓨팅 22 관심 있는 분들을 우리 부스(#2741)에 들러 시연해 보시기 바랍니다. 뉴스의 공식 발표를 읽을 수 있습니다. 여기를 눌러 더 많은 정보를 찾으세요..

저자

  • 개릿 밴리

    Garrett VanLee(개릿 밴리)는 Rescale의 제품 마케팅을 이끌며 산업 분야 전반의 혁신을 위해 고객들과 긴밀히 협력하고 있습니다. 그는 고객 성공 사례와 연구 혁신 및 Rescale 소속 엔지니어, 과학자, IT 전문가들의 모범 사례를 공유하며 다른 조직을 돕는 데서 큰 보람을 찾습니다. 개릿은 현재 슈퍼컴퓨팅, HPCAI 시뮬레이션 모델의 융합과 해당 동향이 과학 및 산업 분야의 혁신적 발견을 어떻게 주도하고 있는지에 집중하고 있습니다.

비슷한 게시물