온프레미스 HPC 시스템 구축에 드는 추악하고 숨겨져 있으며 과소평가된 비용

현재와 ​​미래의 HPC 및 조직의 요구 사항에 따라 각 시스템은 정의하고 비교해야 하는 이점과 제한 사항을 제공합니다. 시스템 간의 주요 비교 중 하나는 일반적으로 총 소유 비용(TCO)입니다. 이전 블로그 포스팅에서 말씀드린 것처럼, TCO는 근본적으로 서로 다른 대안 간의 구매 결정을 내리는 데 적합하지 않습니다.. 온프레미스 HPC 시스템의 TCO는 영업 부사장이 자신의 블로그에서 30년 이상 논의한 내용입니다. “고성능 컴퓨팅의 실제 비용.” 온프레미스 HPC 시스템 구입을 고려하는 사람들에게는 온프레미스 HPC 시스템의 TCO를 계산할 때 종종 간과되는 몇 가지 숨겨진 비용이 있습니다.
이 게시물에서는 온프레미스 시스템의 TCO를 분석하고 간과될 수 있는 일부 비용을 공개하려고 합니다.
TCO에 대한 간략한 검토
온프레미스 HPC 시스템의 TCO에 대한 넓은 정의는 향후 시스템과 관련된 모든 직접 및 간접 비용을 합산하는 것입니다. 보다 확실한 비용은 하드웨어, 소프트웨어, 인력 및 전력입니다. 하드웨어의 경우 서버, 배선, ToR 스위치, 통합 스위치, 서버 랙, 배전 장치 등이 필요합니다. 그런 다음 복잡한 문제를 해결하려면 각 노드 간의 통신을 조정하는 소프트웨어를 구입해야 합니다. 또한 사용하려는 소프트웨어에 대한 라이센스를 구입해야 합니다. 매우 가변적이고 추정하기 어려운 리소스는 온프레미스 HPC 시스템을 개발, 배포 및 유지 관리하는 데 필요한 인력입니다. 마지막으로, 온프레미스 HPC 시스템에는 많은 전력 및 냉각 기능이 필요합니다. 에너지 소비량을 계산하고 이것이 운영 비용에 어떤 영향을 미칠지 계산하는 것이 중요합니다. 위 항목에 대한 비용을 합산하면 온프레미스 HPC 시스템에 대한 기본 TCO가 계산됩니다. 그러나 온프레미스 시스템의 TCO에 큰 영향을 미칠 수 있는 몇 가지 숨겨진 비용이 있습니다.
실제 세계의 숨겨진 비용
#1 HPC 시스템을 호스팅하는 시설에는 언뜻 보기보다 훨씬 더 많은 비용 의존성이 있습니다.. 시설에 현재 시스템을 지원하는 데 필요한 적절한 냉각 및 전력 공급이 이루어지고 잠재적인 확장성을 확보하면 향후 많은 비용을 절약할 수 있습니다. 전력은 주요 비용이며 전체 운영 비용에 큰 영향을 미칠 수 있습니다. 클러스터 위치와 활용도에 따라 전력 비용이 크게 달라질 수 있습니다. 귀하의 위치로 인해 비용을 최소화하기 위해 HPC 시스템을 운영하는 방법에 큰 영향을 미치는 매우 변동적인 전력 가격을 볼 수도 있습니다. 어떤 경우에는 전력 비용이 운영 비용의 1/3을 넘을 수도 있습니다. 시설과 에너지는 TCO를 계산할 때 고려해야 할 중요한 사항이며 대규모 시설의 경우 주요 관심사로 고려해야 합니다.
#2 인력 충원은 생각보다 비용이 많이 들고 다양하며, 무시할 경우 성능과 가동 시간이 저하됩니다. 정의하기 가장 가변적이고 파악하기 어려운 비용 중 하나는 온프레미스 HPC 시스템에 대한 인력 배치입니다. HPC 시스템의 개발, 배포, 유지 관리를 수행할 수 있는 우수한 운영 및 IT 관리자를 찾고 고용하고 교육하는 것은 매우 어려울 수 있습니다. HPC 시스템을 설계하려면 컴퓨팅 요구 사항에 가장 적합한 하드웨어와 소프트웨어를 일치시키는 값비싼 전문가가 필요합니다. 시스템 조달 비용만 전체 HPC 시스템의 5%에 달하며 최소 6개월이 소요됩니다. 이 기간 동안 클러스터를 조립하기 위해 전문가에게 계속 비용을 지불해야 하며 HPC 시스템에 대한 보상은 받지 못합니다. 일단 배포되면 시스템의 유지 관리 및 운영을 보장하기 위해 매우 구체적인 IT 인력이 필요합니다. 이러한 직원에게는 HPC 시스템의 수명과 성능을 테스트하고 보호하기 위한 전문 기술이 필요합니다. 이러한 기능을 수행할 적절한 직원을 찾는 것은 번거롭고 비용이 많이 들 수 있지만 온프레미스 HPC 시스템 배포를 고려할 때 최우선 사항입니다.
#3 활용도가 낮으면 유휴 시간보다 비용이 더 많이 들고 관련 오버헤드도 상당합니다. 유휴 HPC 시스템은 ROI를 낮출 뿐만 아니라 제품 개발 주기에 치명적인 영향을 미칠 수 있습니다. 백업 시스템은 HPC 시스템을 운영하는 데 필요한 비용으로 간주되지 않기 때문에 간과될 수 있습니다. 그러나 이를 갖지 않은 경우의 결과는 끔찍할 수 있습니다. 발전기, 스위치, 가스 및 백업 에너지 시스템의 유지 관리는 모두 정전으로부터 시스템을 보호하는 데 필요합니다. 백업 에너지 조항과 마찬가지로 백업 하드웨어는 유휴 HPC 시스템을 완화하는 데 매우 중요합니다. 문제가 발생할 경우를 대비해 예비 하드웨어를 준비하는 것이 중요합니다. 백업 하드웨어가 없으면 부품을 수리하거나 구입하는 동안 시스템이 유휴 상태로 있을 수 있습니다. 계획을 세우지 못했다면 실패할 계획도 세워야 합니다. 이는 온프레미스 HPC 시스템을 실행할 때 특히 그렇습니다.
#4 마지막으로, 온프레미스 기술은 끊임없는 오르막(대개 패배) 싸움입니다.. 이는 최고의 기술을 활용하지 못하고, 이를 따라잡기 위해 막대한 노력과 자본을 들여야 하는 폐해이다. HPC 시스템을 비교할 때는 비용과 보상, 그리고 서로에 미치는 영향을 인정해야 합니다. 최고의 기술을 사용하지 않으면 최고의 시스템에서 제공하는 보상을 상실하는 데 따른 비용이 발생할 수 있습니다. 최고의 HPC 솔루션을 사용하지 않은 데 따른 비용으로는 생산성 손실, 혁신 실패, 솔루션 구현 시간 연장, 기술 갱신 비용, IT 위험 관리, IT 부채 및 노력 증가 등이 있습니다. 가장 해로운 상실 보상은 시장 출시 시간 증가, 혁신 지연, 연구자 유휴 시간 증가와 관련된 과다한 비용을 발생시키는 연구 파이프라인의 비효율성입니다. HPC 기술이 부족하면 더 큰 문제를 연구할 수 없고 조직의 경쟁력을 떨어뜨리는 혁신이 누락되는 등 돌이킬 수 없는 결과가 발생할 수 있습니다. 더 나은 HPC 솔루션을 사용하면 팀의 효율성이 얼마나 향상될지 평가한 다음 거꾸로 작업하여 비효율성과 관련된 비용을 계산해야 하기 때문에 이러한 비용은 계산하기 어려운 경우가 많습니다.
요약하자면, 직원 배치, 시설, 전력 소비, 백업 제공, 보상 상실 등 모든 숨겨진 비용을 고려할 때 온프레미스 HPC 시스템의 실제 TCO를 찾는 것은 매우 어려울 수 있습니다. 나는 HPC 시스템을 비교할 때 고려해야 할 가장 중요한 비용 중 하나가 보상 상실로 인한 비용이라고 주장합니다. 그러나 이는 계산하고 예측하기가 가장 어려운 것으로 입증되었습니다. 클라우드 지원 시스템과 온프레미스 HPC 시스템 간의 TCO 비교 주제는 정기적으로 논의되어 왔지만 아직 명확하게 정의되지 않았습니다. 이는 우리가 개선하기 위해 노력하고 있는 비교이므로 이 블로그 게시물이나 TCO에 대한 의견이나 질문이 있는 경우 귀하의 생각을 듣고 싶습니다.
사라 진스. (2017년 19월 2일). 고성능 컴퓨팅(HPC)을 위한 클라우드 대 데이터센터 비용: 실제 사례. 검색 출처: https://www.internet14114.edu/blogs/detail/XNUMX
토니 스파뉴올로. (2015년 XNUMX월). 고성능 컴퓨팅의 실제 비용. 검색 위치: https://rescale.com/blog/the-real-cost-of-high-performance-computing/
볼프강 겐츠쉬. (2016년 6월 2016일). 사내 컴퓨팅 리소스 및 클라우드 컴퓨팅 제조업체를 위한 총 비용 분석. 검색 출처: https://community.theubercloud.com/wp-content/uploads/04/XNUMX/TCO-Study-UberCloud.pdf

비슷한 게시물