| | |

비용을 절감하고 에너지 소비를 줄이면서 HPC 성능을 향상하는 방법

고성능 컴퓨팅 이제 현대 연구 및 엔지니어링의 초석이 되었습니다. 업계 전반의 조직에서는 제품 개발 주기를 단축하기 위해 디지털 모델링 및 시뮬레이션으로 전환하고 있습니다. 특히 공학에서는 전자 설계 자동화(EDA) 산업용 사물 인터넷(IIoT)의 급속한 확장으로 인해 HPC 수요가 증가하고 있습니다. 

기업이 점점 더 복잡해지는 시뮬레이션과 기타 작업을 위해 HPC로 전환함에 따라 비용을 지속적으로 통제하고 에너지 소비를 줄여야 합니다.

고성능 컴퓨팅(HPC)이란 무엇입니까?

범용 컴퓨팅에 비해 HPC는 복잡한 컴퓨팅 문제를 매우 빠른 속도로 처리할 수 있는 더 높은 처리량을 제공합니다. HPC 시스템 컴퓨팅, 네트워크, 스토리지라는 세 가지 기본 구성 요소가 포함됩니다. 대규모 병렬 처리를 통해 컴퓨팅 성능을 집계합니다. 

HPC 클러스터는 네트워크에 연결된 다수의 서버로 구성됩니다. 각 구성 요소 컴퓨터는 "노드"로 간주됩니다. HPC 시스템에는 노드당 16개의 CPU가 있는 64~XNUMX개의 노드가 포함되는 경우가 많습니다. 

고성능 컴퓨팅에 대한 요구는 오늘날 점점 더 정교해지는 소프트웨어와 시뮬레이션 및 분석에 사용되는 대규모 데이터 세트로 인해 발생합니다. 이 소프트웨어는 항공기 공기역학, 자율 주행, 신약 개발, 날씨 모델링 등 다양한 분야에서 제품 성능을 개선하는 데 사용됩니다. 예를 들어, 시뮬레이션 소프트웨어 애플리케이션은 안 시스, 지멘스, 썰트융합과학 특수 HPC 아키텍처를 사용하여 수행 전산 유체 역학 상업용 비행기, 군용 항공기 및 우주선 개발에 사용됩니다. R&D 조직은 일반적으로 광범위한 애플리케이션 포트폴리오, 상업용, 오픈 소스 및 자체 개발 코드가 포함된 코드를 포함합니다. 효율적으로 실행되도록 보장 HPC 인프라 요구 사항이 모두 다르기 때문에 어려운 일입니다. 동시에 ISV(독립 소프트웨어 공급업체) 환경이 계속 확장되면서 조직이 고급 R&D 소프트웨어 사용을 지원해야 하는 방식이 더욱 복잡해졌습니다.

전문화된 HPC 클러스터

특수 HPC 반도체 칩의 다양성이 증가함에 따라 조직은 복잡한 R&D 애플리케이션을 실행하기 위해 성능과 비용 간의 많은 균형점을 고려해야 합니다.

HPC는 특수 HPC 클러스터를 활용하여 특정 종류의 애플리케이션 및 워크로드에 대한 워크플로를 최적화합니다. 

일부 작업에는 특수 하드웨어 및 소프트웨어뿐 아니라 노드 간 더 많은 통신이 필요합니다. 특정 워크로드의 컴퓨팅 요구 사항에 따라 클러스터에 필요한 노드 수가 결정됩니다. 일부 소프트웨어 및 계산 작업은 특정 종류의 반도체 칩에서 더 잘 수행됩니다. 다음과 같은 자동화된 벤치마킹 평가 도구 성능 프로필 재조정 주어진 컴퓨팅 작업에 가장 적합한 칩 아키텍처를 일치시키는 데 매우 도움이 될 수 있습니다.

클러스터를 위한 고성능 상호 연결은 낮은 지연 시간과 대역폭에 대한 요구 사항을 해결합니다. 워크로드를 추적하고 필요에 따라 다시 라우팅합니다. 대규모 데이터 세트를 처리하는 한 가지 방법은 HPC 애플리케이션을 패키징하여 여러 클러스터에서 실행하는 것입니다. 클러스터 관리자는 용량 및 상태 확인을 실행하여 사용 가능한 리소스를 찾아 사용합니다.

컨테이너화

일부 조직에서는 AI 배포와 함께 점점 더 보편화되고 있는 GPU 최적화 컨테이너를 통해 HPC 워크로드 관리를 다루고 있습니다. 오픈 소스 Apptainer(Singularity)는 HPC에 가장 널리 사용되는 컨테이너 시스템입니다. Shifter와 Docker는 다른 옵션입니다. 이를 통해 주요 AI 애플리케이션을 원활하게 통합할 수 있습니다. 컨테이너화된 애플리케이션은 이동성을 높여 어디서나 사내 및 상업용 애플리케이션을 사용할 수 있게 해줍니다. 

가상화는 컨테이너화의 대안입니다. 호스트 운영 체제 위에 가상 환경을 생성합니다. 가상 머신(VM)은 자체 운영 체제로 프로그래밍되어 서로 완벽하게 격리됩니다. Hyper-V, vSphere 및 OpenStack이 몇 가지 예입니다.

HPC가 중요한 이유는 무엇입니까?

HPC는 기존 컴퓨팅보다 훨씬 짧은 시간에 중요한 정보와 분석을 제공합니다. HPC의 속도는 엔지니어와 데이터 과학자부터 제품 디자이너와 연구원에 이르기까지 다양한 역할에 이점을 제공합니다. 

또한 모델링 및 시뮬레이션(M&S)을 완전히 새로운 수준으로 끌어올렸습니다. 예를 들어 고해상도 모델은 신제품에 대한 보다 세부적인 정보를 제공하므로 프로토타입 및 실제 테스트의 필요성이 줄어들거나 제거됩니다. 실제 충돌 테스트보다는 자동차 충돌 시뮬레이션을 생각하고, 실제 항공기가 아닌 비행 시뮬레이터에서 조종사를 훈련한다고 생각해보세요.

클라우드 HPC를 사용하면 다양한 기업이 필요에 따라 컴퓨팅 요구 사항을 신속하게 확장할 수 있습니다.

몇 가지 예는 다음과 같습니다.

  • 엔지니어링 회사
  • 연구실 
  • 금융 기술(핀테크)
  • 제품 개발
  • 정부와 국방

스타트업과 중소기업도 확장성이 뛰어난 클라우드 HPC를 활용할 수 있습니다.

HPC 성능 이해

디지털 연구 및 엔지니어링의 속도가 가속화됨에 따라 조직에서는 특정 애플리케이션 및 컴퓨팅 작업에 적합한 칩 아키텍처 선택을 포함하여 HPC 프로비저닝 주기를 최대한 자동화하는 것이 중요해졌습니다.

HPC 최적화는 특정 워크로드에 적합한 컴퓨팅 아키텍처를 제공하는 데 따른 복잡성을 해결합니다. 이는 시스템을 보다 에너지 효율적으로 만드는 데에도 필수적입니다. HPC 워크로드는 온프레미스 또는 클라우드에 있는 시스템 리소스 전반에 걸쳐 분산된 데이터 집약적인 작업입니다. 

오늘날의 HPC 시스템은 AI, 기계 학습, 딥 러닝을 포함한 엄청난 워크로드를 처리할 수 있습니다. 엄청난 양의 데이터를 처리하는 동시에 수백만 개의 시나리오를 동시에 실행합니다.

주요 성과 지표

분석가는 HPC 시스템의 성능을 초당 플롭 단위로 측정합니다. 현재 Oak Ridge National Laboratory의 Frontier 장비는 TOP500 1.102 Eflop/s(XNUMX엑사플롭은 XNUMX경 계산)를 제공하는 가장 강력한 슈퍼컴퓨터 목록입니다. 

또 다른 주요 지표는 전력 사용 효율성(PUE)이는 데이터센터 전체의 에너지 효율을 결정짓는다. 데이터 센터에 유입되는 총 전력을 모든 IT 장비를 작동하는 데 사용되는 전력으로 나누어 PUE를 계산할 수 있습니다. 숫자가 1.0에 가까울수록 전반적인 효율성이 향상됩니다. 또 다른 벤치마킹 표준은 데이터 센터 인프라 효율성 (DCIE). 이 에너지 효율성 지표는 IT 장비 전력을 총 시설 전력으로 나누어 계산합니다.

마지막으로 측정항목도 중요하지만 어느 정도까지만 중요합니다. 궁극적으로 사용자는 계산 작업을 더 빠르게 실행하는 데 도움이 되는 실제 성능에 가장 관심을 갖습니다. 모든 유형의 소프트웨어 및 워크로드에 대해 HPC 성능을 완전히 평가하는 것은 어려울 수 있습니다. 일부 유형의 반도체 칩은 다른 유형의 소프트웨어보다 특정 유형의 소프트웨어에서 더 잘 작동합니다.

계산 병목 현상 

일부 회사의 경우 온프레미스 인프라 자체가 병목 현상이 됩니다. 이러한 유형의 인프라 투자는 일반적으로 100% 활용률로 계산되므로 즉각적인 수요가 공급을 초과하고 더 이상 용량이 없기 때문에 병목 현상이 발생합니다. 이에 비해 클라우드 HPC는 탄력적이어서 요구사항 변화에 따라 확장 및 축소됩니다. 조직에서는 더 많은 컴퓨팅 성능을 구독하기만 하면 됩니다. 결과적으로 클라우드의 HPC는 제한된 용량의 제약 없이 전체 활용도를 제공합니다.

메모리 용량, I/O 처리량, 스토리지 속도/용량을 포함하여 HPC 시스템에는 다른 많은 잠재적인 병목 현상이 존재합니다. CPU 코어, 클럭 속도 또는 캐싱도 성능을 제한할 수 있으며, 다른 억제제에는 네트워크 스위치 대역폭이 포함될 수 있습니다.

메모리 용량은 또 다른 문제입니다. 데이터 전송 속도가 높을수록 버퍼링 및 저장에 더 많은 메모리가 필요하기 때문입니다. 기존 DDR3, DDR4, 심지어 DDR5 메모리도 병목 현상이 발생할 수 있습니다. 그러나 고대역폭 메모리(HBM)는 DDR5 메모리 대역폭의 XNUMX배를 제공하므로 가능한 솔루션입니다. 

병목 현상을 방지하려면 소프트웨어 사양을 성능을 최적화하는 HPC 구성에 맞추는 것도 중요합니다.

HPC 에너지 효율성

지속 가능성은 HPC 관리에 있어 점점 더 시급한 요구 사항이 되고 있습니다. 가장 에너지 효율적인 하드웨어를 평가할 수 있는 능력은 HPC 운영의 탄소 배출량을 제어하는 ​​데 필수적입니다.

와트당 플롭으로 측정되는 HPC 시스템의 에너지 효율성은 계속해서 향상되고 있습니다. 이에 대한 한 가지 예는 다음과 같습니다. 헨리 뉴욕시에 있는 Flatiron Institute의 시스템은 효율성 점수가 65.09GFlops/Watts입니다. 

데이터 센터 운영자는 다양한 방법으로 에너지 효율성을 지속적으로 개선하고 있습니다. 예를 들어, 차세대 저전력 칩셋은 에너지 소비를 줄이고 열을 더 잘 발산합니다. 전력 최적화된 IP 코어는 또한 다음을 통해 에너지 사용과 데이터 전송을 줄입니다. 고 대역폭 메모리. 일부 운영자는 다음과 같은 대체 지속 가능성 방법으로 전환했습니다. 액체 냉각열 재활용.

데이터 센터에서는 점점 더 많은 것을 고려하고 있습니다. 재생 가능 에너지 원 수력, 풍력, 태양광, 바이오매스, 녹색수소 등이 있습니다. 191년부터 2015년까지 데이터 센터 전력 소비가 2021테라와트시 수준으로 유지되었다는 사실에서 알 수 있듯이 상당한 진전이 이루어지고 있습니다. 그러나 온프레미스 데이터 센터에서 일회성 마이그레이션으로 인해 HPC 수요의 전반적인 성장이 다소 가려졌습니다.

HPC 컴퓨팅 수요 대응

수요를 충족하기 위해 업계에서는 그 어느 때보다 강력한 기계로 대응하고 있습니다. 시스템은 페타플롭에서 엑사플롭 용량 이상으로 이동하고 있습니다. 엑사플롭(Exaflop) 기능을 갖춘 슈퍼컴퓨터는 XNUMX경 계산을 수행하는 데 XNUMX초가 필요합니다. 그 이상이 걸릴 것입니다 수십억 년 초당 한 번의 계산으로 해당 수의 계산을 완료합니다. 

HPC 효율성을 확장하기 위한 혁신에는 새로운 아키텍처와 하드웨어가 포함됩니다. 예를 들어, 3DIC 및 다이-투-다이 연결은 최신 성능 요구 사항을 충족합니다. 그리고 FPGA, GPU, CPU 및 기타 처리 아키텍처가 단일 노드에 통합되면 보다 유연한 전환이 가능합니다. 

새로운 하드웨어는 클라우드 기반 HPC를 선호하는 경우가 많습니다. 따라서 레거시 온프레미스 데이터 센터는 항상 에너지 효율적인 칩셋을 활용할 수는 없습니다. 클라우드로의 마이그레이션은 속도, 확장성, 지속 가능성에 대한 증가하는 요구를 효과적으로 해결하는 한 가지 방법입니다. 

그러나 온프레미스에서 클라우드로의 단순한 "리프트 앤 시프트" 마이그레이션이 회사의 새로운 HPC 요구 사항을 항상 해결하는 것은 아닙니다. 레거시 인프라는 일반적으로 갱신 주기가 XNUMX~XNUMX년이므로 변화하는 비즈니스 요구 사항에 대처할 수 없는 경우가 있습니다. 이렇게 긴 주기로는 HPC 생태계의 급격한 변화를 따라잡을 수 없습니다. 클라우드 도입은 상대적으로 높은 수준의 재정적 유연성도 제공합니다. 기업 HPC 비용 모델은 장기적인 관점에서 전환됩니다. CapEx 단기적인 OpEx로 전환합니다. 많은 자본을 묶지 않으며 다양한 클라우드 HPC 비용 모델을 현재 요구 사항에 더 잘 맞출 수 있습니다.

주요 요점

온프레미스 데이터 센터가 있는 기업의 경우 클라우드로의 마이그레이션은 비용을 절감하면서 에너지 효율성을 높이는 중요한 방법입니다. Cloud HPC는 모든 규모의 기업에 최신 기술 발전의 혜택을 누릴 수 있는 방법을 제공합니다. 

HPC 성능을 최적화하려면 소프트웨어 사양과 사용 가능한 하드웨어 간의 조정이 필요합니다. 또한 특화된 HPC 클러스터와 컨테이너화를 통해 HPC 성능과 에너지 효율성도 높일 수 있습니다. 

AI의 사용이 확산됨에 따라 HPC 시스템은 더욱 다양해질 것입니다. 효율적인 에너지.

Rescale에 대해 자세히 알아보기

Rescale이 귀하의 조직이 더 큰 혁신을 추진하면서 비용을 제어하는 ​​데 어떻게 도움이 되는지 알아보세요. 와 함께 성능 프로파일, 귀하의 요구 사항에 가장 적합한 클라우드 HPC 아키텍처를 쉽게 식별할 수 있습니다.

주문형 웨비나에서 자세히 알아보세요 “클라우드에서 워크로드 비용 및 성능을 최적화하세요.”

저자

  • 개릿 밴리

    Garrett VanLee(개릿 밴리)는 Rescale의 제품 마케팅을 이끌며 산업 분야 전반의 혁신을 위해 고객들과 긴밀히 협력하고 있습니다. 그는 고객 성공 사례와 연구 혁신 및 Rescale 소속 엔지니어, 과학자, IT 전문가들의 모범 사례를 공유하며 다른 조직을 돕는 데서 큰 보람을 찾습니다. 개릿은 현재 슈퍼컴퓨팅, HPCAI 시뮬레이션 모델의 융합과 해당 동향이 과학 및 산업 분야의 혁신적 발견을 어떻게 주도하고 있는지에 집중하고 있습니다.

비슷한 게시물