Azure Linux RDMA 설정 팁

라이언블로그2-2
작년에 Microsoft가 Azure Linux RDMA 지원을 발표한 것은 클라우드에서 긴밀하게 결합된 HPC 워크로드를 실행하려는 사람들에게 좋은 소식이었습니다. 안타깝게도 설정 방법을 설명하는 문서가 아직 많지 않습니다. 이것 지도 시간 Azure Linux RDMA 구성에 대한 주요 정보 소스인 것으로 보입니다. 그러나 처음으로 클러스터를 설정할 때 문제를 일으킬 수 있는 몇 가지 누락 사항이 있습니다. 이 게시물에서는 발생할 수 있는 몇 가지 문제와 해결 방법을 다룰 것입니다.
첫째, 튜토리얼에서는 가상 머신 배포를 위해 이전 ASM 모델을 사용합니다. Microsoft에서는 새 프로젝트에서 배포에 ARM을 사용할 것을 권장합니다. 전환하는 가장 큰 이유 중 하나는 ARM 배포가 가상 머신을 병렬로 프로비저닝하는 반면 ASM은 가상 머신을 직렬로 배포하기 때문입니다. 대규모 클러스터의 경우 시작 시간이 크게 달라질 수 있습니다.  권장 바닐라 SLES 12 HPC VHD를 사용하여 독립 실행형 MPI 클러스터를 시작하는 시작점으로 사용할 수 있는 간단한 ARM 템플릿입니다.
클러스터가 시작된 후 git과 같은 몇 가지 일반적인 패키지를 설치하고 싶을 것입니다.
하나:
# zypper 설치 자식
저장소 데이터 로드 중…
설치된 패키지를 읽는 중…
패키지 이름에 'git'이 없습니다. 능력을 시험하고 있습니다.
'git' 공급자를 찾을 수 없습니다.
패키지 종속성 해결 중…

할 것이 없다.
그 이유는 바닐라 SLES VHD에 기본적으로 많은 저장소가 없기 때문입니다. 다음을 실행하여 다시 추가할 수 있습니다.
# CD /etc/zypp/repos.d
# mv sldp-msft.repo sldp-msft.repo.bak
# rm -f *.repo
# systemctl restart guestregister.service
# mv sldp-msft.repo.bak sldp-msft.repo
# zypper 주소 추가 sldp-msft.repo
# zypper 새로 고침

이제 훨씬 더 광범위한 패키지에 액세스하여 설치할 수 있습니다. 튜토리얼 가이드에 설명된 대로 사용자 지정 패키지를 설치하고 Intel MPI도 설정한 후 사용자 지정 VHD를 캡처하여 대신 MPI 클러스터의 시작점으로 사용할 수 있습니다.
사용자 지정 VHD를 사용하여 클러스터를 시작한 후에는 RDMA 드라이버를 업데이트할 VM 확장을 설치해야 할 수 있습니다. 튜토리얼에는 미국 서부, 서부 유럽 및 일본 동부 지역에서 RDMA 드라이버를 업데이트해서는 안 된다고 명시되어 있습니다. 그러나 이는 오래된 알림인 것 같습니다. 해당 지역에서 Intel MPI 핑퐁 테스트를 실행하려고 시도했을 때 설명된 것과 동일한 DAPL 오류가 발생했기 때문입니다. 여기에서 지금 확인해 보세요.. 드라이버 업데이트 후 핑퐁 테스트가 오류 없이 작동하기 시작했습니다.
OSTC 확장을 설치하는 데 있어서 주의해야 할 작은 문제가 하나 있습니다. 확장을 설치한 후 즉시 VM에 SSH로 연결하면 로그인 직후 연결이 끊어지는 것을 알 수 있습니다.
azureadmin@n1:~> 13.93.144.56에 대한 연결이 원격 호스트에 의해 닫혔습니다.
13.93.144.56에 대한 연결이 닫혔습니다.

그 이유는 VM이 ​​약 2~3분 정도 재부팅되기 때문입니다. 시간 내에 확장 배포가 완료됩니다. 확장 설치가 완료되면 VM을 사용할 수 있으면 더 좋겠지만 아쉽게도 여기서는 그렇지 않은 것 같습니다. 클러스터 배포를 자동화하려는 경우 이는 고려해야 할 사항입니다.
Azure Linux RDMA 지원이 Azure Batch 서비스에 추가되면 위의 사항을 처리할 필요가 없기를 바랍니다. 물론 클러스터를 시작하는 것은 시작점일 뿐입니다. 여전히 시뮬레이션 소프트웨어를 설치 및 조정하고, 라이센스 서버에 대한 연결을 설정하고, 입력 및 출력 파일을 클러스터와 안전하게 전송해야 합니다. Rescale의 지원 팀은 웹, API 또는 CLI 도구를 사용하여 Azure에서 이를 달성하기 위해 귀하와 협력할 준비가 되어 있습니다.

비슷한 게시물