클라우드: HPC의 차세대 혁신

1991년에 저는 Cray에 입사하여 Seymour Cray가 설계한 기계 작업을 할 기회를 얻었습니다. 나는 운영 체제 작업을 하고 있었고 밤에 혼자 작업해야 하는 경우가 많았지만, 그런 독특한 시스템을 작업한다는 즐거움이 나를 계속해서 움직이게 했습니다. Cray 1, XMP, YMP는 차별화된 아키텍처와 디자인을 통해 일반 컴퓨터로는 해결할 수 없는 문제를 해결할 수 있는 시스템 제품군을 대표합니다.
제가 합류했을 때 Cray는 MPP(대규모 병렬 처리)라고 불리는 새로운 유형의 병렬 머신 구축을 고려하고 있었습니다. 저는 표준 CPU 칩, 메모리 및 독점 고속 상호 연결을 갖춘 3개의 개별 노드가 있는 시스템인 Cray T2048E용 운영 체제의 설계 및 구현 작업을 담당했습니다. 시대를 앞서서 Cray는 오늘날 우리가 HPC 클러스터라고 부르는 것을 구축하고 있었습니다. 이는 환상적인 엔지니어링 프로젝트일 뿐만 아니라 독점 Cray 아키텍처에서 상용 부품이 포함된 노드 클러스터로 전환하는 혼란의 시작이었습니다.

저는 2000년쯤에 두 번째 혼란을 겪었습니다. 저는 SGI에서 소프트웨어 개발을 주도하고 있었고 우리는 MIPS 프로세서에서 Intel로 이동할 계획이었습니다. Linux가 여전히 취미 운영 체제로 간주되던 당시 SGI의 IRIX가 당시 훌륭한 운영 체제로 칭찬받았음에도 불구하고 SGI에서는 마이그레이션 중에 Linux로 전환하는 위험을 감수했습니다. 처음에 고객은 Linux가 독점 OS보다 제어력이 떨어지는 것으로 간주되었기 때문에 변화에 상당히 저항했습니다. 시간이 지남에 따라 고객은 이 아이디어를 받아들였고 다른 공급업체도 뒤따랐으며 Linux는 HPC의 표준 운영 체제가 되어 더 많은 애플리케이션을 쉽게 사용할 수 있게 되었습니다.
몇 년이 지나면서 HPC는 고유한 독점 설계에서 많은 듀얼 CPU Intel 노드의 클러스터로 전환했습니다. 공급업체의 제품은 이제 아키텍처의 고유성보다 패키징, 밀도 및 냉각에 따라 더 많이 차별화됩니다.  
이와 동시에 클라우드 컴퓨팅은 대규모 IT 산업에서 추진력을 얻었습니다. 인텔은 이제 회사 소유 시설보다 클라우드에서 실행할 수 있는 프로세서를 더 많이 판매하고 있으며, 클라우드는 온프레미스보다 더 빠른 속도로 혁신과 효율성을 주도하기 시작했습니다.
고성능 컴퓨팅은 온프레미스에서 발전했습니다. 수백만 달러에 컴퓨터를 구입하면 시뮬레이션을 실행하여 혁신 시간과 제품 출시 시간을 단축할 수 있습니다. 그림 1에 묘사된 자동차 제조업체는 사내 HPC 시스템을 구매할 때 직면하게 되는 새로운 딜레마를 나타냅니다. 이 회사의 작업량이 많은 경우 어떤 규모의 시스템을 구매해야 합니까? 최대 작업 부하를 수용하는 시스템을 구입하는 경우 약 20천만 달러를 지출해야 할 수 있지만 시스템 활용률은 20%에 불과합니다. 4만 달러 규모의 시스템을 구입하면 시스템 활용도가 높아지지만 대규모 작업을 실행할 수 없으며 작업이 실행되기 전에 며칠 동안 대기열에 대기하게 되어 혁신과 출시 시간이 지연됩니다.

그림 1 - 차세대 HPC 시스템을 선택하는 자동차 제조업체의 과제
그림 1 - 차세대 HPC 시스템을 선택하는 자동차 제조업체의 과제

이 자동차 부품 제조업체는 두 가지 옵션 모두 수용할 수 없다고 판단하고 대신 Rescale을 선택하고 클라우드에서 HPC를 실행하기로 결정했습니다. 이제 그들은 필요할 때 필요한 IT에 대해 월 $50에서 $100 사이를 지불하고 기다리지 않고 완벽한 크기의 시스템에 즉시 액세스할 수 있어 설계 처리량과 출시 시간이 크게 향상됩니다. Rescale 클라우드 플랫폼을 통해 이들은 두 가지 장점을 모두 누릴 수 있습니다. 즉, $4M 시스템의 감가상각비를 매월 지출하는 동시에 $20M 시스템의 서비스를 받습니다.
고성능 컴퓨팅을 요구하는 모든 고객은 자동차 제조업체가 직면한 것과 동일한 과제에 직면해 있습니다. 시스템을 분할하거나 최신 아키텍처를 포기해야 하기 때문에 CPU, GPU, TPU, KNL, FPGA 및 다중 상호 연결 기술을 포함하는 새로운 다양한 프로세서 아키텍처로 인해 문제가 더욱 두드러집니다. 이와 대조적으로 클라우드는 사용자에게 선택을 강요하지 않고 대신 문제 유형에 가장 적합한 아키텍처에서 각 워크로드를 실행할 수 있도록 허용합니다. 애플리케이션은 클라우드에서 쉽게 액세스할 수 있으므로 고객은 사용량에 따라 비용을 지불할 수 있습니다. 하드웨어와 애플리케이션의 가용성을 통해 신규 고객은 클라우드 HPC 이전에는 대기업에서만 사용할 수 있었던 HPC를 활용할 수 있습니다.
클러스터 대 모놀리식 시스템 또는 Linux 대 독점 운영 체제의 이전 중단과 마찬가지로 클라우드는 현상 유지를 바꾸고 우리를 안전 지대에서 벗어나게 하며 통제력이 부족하다는 느낌을 줍니다. 그러나 가격의 영향, 시스템 크기를 동적으로 변경하고 작업에 가장 적합한 아키텍처를 선택할 수 있는 유연성, 애플리케이션 가용성, 특정 워크로드의 요구 사항에 따라 시스템 비용을 선택하는 기능, 프로비저닝 및 실행 기능 즉시 HPC 사용자에게 매우 매력적인 것으로 입증될 것입니다. 이제 조직의 클라우드에서 HPC에 대해 생각해 볼 때가 되었습니다!
클라우드 중단의 특성은 독특합니다. 전부도 아니고 아무것도 아니고 발가락을 물에 담그면 됩니다. 기존 프로세스를 따르고 또 다른 온프레미스 시스템을 구입하면 클라우드의 장점을 놓치게 됩니다. 클라우드는 다음 번에 수백만 달러를 구매할 필요 없이 미래의 이점을 테스트할 수 있는 기회를 제공합니다. 100만 달러를 지출하면 즉시 시작하여 클라우드에서 HPC를 테스트하고 사용 가능한 최신 아키텍처에 액세스할 수 있습니다. 3~5년 후의 다음 HPC 시스템이 클라우드에 있거나 하이브리드 시스템이 될 경우 지금 테스트하고 학습하고 반복하면 위험이 줄어들고 훨씬 더 원활한 전환이 가능해집니다. 따라서 클라우드에 대해 생각하는 것 외에도 다음 주부터 미래를 테스트해 보시기 바랍니다!
-
가브리엘 브로너Gabriel Broner는 25년 동안 HPC 업계에 종사해 왔습니다. 그는 Cray에서 운영 체제 설계자, SGI/HPE에서 HPC 부사장 겸 GM, Ericsson에서 혁신 책임자, Microsoft에서 GM 역할을 맡았습니다. Gabriel은 2017년 XNUMX월 HPC의 부사장 겸 GM으로 Rescale에 합류했습니다.

비슷한 게시물