| | 워크플로우 자동화

R&D 프로세스 가속화를 위한 Nextflow용 Rescale Executor 기반의 과학 워크플로우 자동화

모든 계산 분야에는 과학(또는 공학) 워크플로우를 작성하는 방법에 대한 저마다의 개념이 있지만, 이러한 개념은 생물정보학부터 구조 해석, 데이터 과학에 이르기까지 매우 다양하며 각 분야의 소프트웨어, 도구 및 표준에 따라 형성됩니다. 과학적 워크플로우란 "과학적 또는 공학적 목표를 달성하기 위해 때로는 여러 단계를 병렬로, 때로는 순차적으로 실행해야 하는, 다시 말해 하나의 표로 설명할 수 있는 일련의 단계 또는 소프트웨어 프로그램"으로 정의합니다. 워크플로우에 관해 이야기할 때 우리는 이러한 단계를 조합하는 과학(작업)에 대해 생각합니다. 그러나 규모에 상관없이 병렬 처리, 재시작 로직, 그리고 재사용과 수정이 용이한 모듈성을 처리하는 방식으로 과학적인 워크플로우를 설명하기 위해서는 특화된 언어 또는 프레임워크가 반드시 필요합니다. 워크플로우의 실질적인 '작업'은 이러한 특화 프레임워크와 그 기능, 그리고 사용자가 기존 워크플로우를 실험하고 기여할 수 있는 용이성에 의해 형성됩니다.

생물정보학 분야에서는 방대한 데이터 세트와 재현성 및 유연성에 대한 요구로 인해 워크플로우가 클라우드로 이동하고 있습니다. 생물정보학 분야에서 처음 등장한 Seqera의 Nextflow는 여러 가지 혁신적인 기능을 갖춘 워크플로우 설명 언어로서, 특히 다음과 같은 두 가지 강력한 기능이 있습니다:

  1. 실행기를 교체함으로써 로직을 실행하는 플랫폼에서 과학적 로직을 분리할 수 있습니다. 실행기는 파이프라인 프로세스를 실행할 위치를 결정하고 그 실행을 감독합니다.
  2. 모든 소프트웨어를 '믹스 앤 매치'할 수 있으므로, 과학자들은 더 큰 단계의 특정 목표에 가장 적합한 소프트웨어를 선택하고 기존 파이프라인에 자체 도구를 삽입해 혁신의 속도를 높일 수 있습니다. 

Rescale은 상호 보완적인 방식으로 혁신하는 클라우드 기반 고성능 컴퓨팅 시뮬레이션 플랫폼입니다. 과학자와 엔지니어가 대규모 클라우드 인프라와 여러 클라우드 공급사에 걸쳐 병렬 애플리케이션(전산 유체역학, 분자역학 시뮬레이션, 기상 모델 등)을 쉽게 실행할 수 있도록 설계되었습니다. Rescale은 클라우드 리소스의 유연성을 보다 쉽게 활용해 해석 속도를 높이고 데이터를 중앙 집중화함으로써, 과학자들이 온프레미스 클러스터에 얽매이지 않도록 지원합니다. 하지만 지금까지는 독점적인 제품들을 통해야만 Rescale 플랫폼에서 복잡한 과학 워크플로우를 네이티브 방식으로 오케스트레이션할 수 있었습니다. 따라서 사용자가 새로운 아이디어를 테스트하기 위해 신규 애플리케이션을 사용하거나 임의의 로직을 프로그래밍하는 것이 어려웠습니다. 우리는 지난 수십 년 동안 성장하는 모든 분야에서 이러한 유연성의 결여가 혁신의 발목을 잡는 것을 보아왔습니다. 일례로 머신 러닝은 생명과학, 기상, 엔지니어링 분야에 분명 혁신을 가져왔지만, 이는 새로운 프로그램과 알고리즘을 기성 방식과 혼합 가능한 유연성이 있을 때 비로소 가능했습니다.

이 자리를 통해 Nextflow용 Rescale 실행기의 본격적인 지원을 발표하게 되어 대단히 기쁘게 생각합니다. 이로써 기존에 전용 워크플로우 언어를 사용하지 않았던 엔지니어링 및 시뮬레이션 작업에 Rescale 기반의 Nextflow를 사용할 수 있는 기능이 제공됩니다. Rescale 기반의 Nextflow를 사용하면 클라우드 서비스 공급사, 고처리량 컴퓨팅(HTC) 또는 고성능 컴퓨팅(HPC)과 같은 실행 패러다임, 다양한 소프트웨어 패키지에서 단일 컨트롤 플레인 아래 이전에는 상상할 수 없었던 규모로 복잡한 워크플로우를 실행할 수 있습니다. 넓은 설계 공간을 다루는 과학 및 엔지니어링 시나리오에서는 연구원들이 컴퓨팅 작업을 병렬화하고 복제함으로써, 가능한 많은 차량 설계 지점 또는 정밀 약물의 배합을 평가하는 등 해답을 찾기까지 걸리는 시간을 단축할 수 있습니다. 프로세스를 개발한 후에는 자유롭게 표준화, 자동화 및 확장할 수 있습니다. 우리는 이러한 기술들을 하나로 합쳐 새로운 과학 영역의 발전과 실험을 가속화하고 있습니다.

데모 등록

Rescale이 HPC 클라우드 분야를 어떻게 혁신하고 있는지 자세히 알아보세요.

저자

  • 타라 마드야스타

    Tara Madhyastha(타라 마드야스타) 박사는 컴퓨터 과학, 교육, 심리학, 신경과학 분야에 기여하고 있는 고성능 컴퓨팅(HPC) 분야의 다학제 과학자입니다. 과학 분야에서 클라우드 컴퓨팅의 중요성을 인식한 그녀는 2019년부터 본격적으로 해당 분야 업계에 몸담고 과학자들이 클라우드와 고성능 컴퓨팅을 사용하여 연구를 발전시킬 수 있도록 지원하고 있습니다.

비슷한 게시물