Rescale의 대화형 신경망 설계

최근 출시 딥 러닝 클라우드 규모 조정, 여기서는 새로운 대화형 노트북 기능을 사용하여 심층 신경망을 개발하는 예를 제시하겠습니다. 이 기능을 사용하면 대화형 데이터 전처리 및 분석과 신경망 배치 교육을 번갈아 수행하는 반복적인 워크플로가 가능합니다.
mark3
이 기사에서는 이미지 분류 데이터 세트(CIFAR10), 대화형 노트북에서 몇 가지 다른 신경망 설계를 시도한 다음 배치 훈련 클러스터를 시작하여 더 많은 시대에 대해 해당 네트워크를 훈련하십시오.

Jupyter 노트북 시작하기
시작하려면 먼저 NVIDIA K80 GPU가 포함된 Rescale Linux 데스크탑을 시작해야 합니다.

데스크탑 시작

여기서는 단일 NVIDIA K80 GPU가 포함된 데스크탑 구성을 선택했습니다. 노트북 부팅이 완료될 때까지 기다리는 동안 CIFAR10 이미지 데이터 세트와 실행할 노트북 코드가 포함된 작업을 복제하고 저장할 수 있습니다. 이 링크를 따라가서 생성된 작업을 저장합니다(실행하기 위해 제출할 필요가 없으며 해당 작업을 사용하여 노트북 및 데이터 세트 입력 파일을 스테이징하기만 하면 됩니다). CIFAR10 TensorFlow 노트북.

데스크톱 부팅이 완료되면 TensorFlow 소프트웨어와 노트북 코드가 포함된 작업을 연결합니다.

데스크탑 연결1
데스크탑 연결2
소프트웨어와 작업이 연결되면 노트북 URL을 열고 메시지가 나타나면 비밀번호를 입력하세요.
주의

그런 다음 `attach_jobs` 디렉터리, 연결한 작업 디렉터리, .ipynb 파일로 이동합니다.

메모 첨부 작업
이 노트북의 코드는
TensorFlow CIFAR10 훈련 예시.

우리는 이미 예제에 또 다른 추론 함수를 추가했습니다: inference_3conv, 세 번째 컨벌루션 레이어가 있습니다. 모든 셀을 있는 그대로 실행하여 3컨볼루션 계층 네트워크를 훈련해 볼 수 있습니다. 2개의 전환 레이어 버전을 실행하려면 호출을 다음으로 바꾸세요. inference_2conv추론_3conv,커널(ESC-0-0)을 다시 시작한 다음 모든 셀을 다시 실행하십시오.
cifar10-추론

텐서 보드
SSH 터널을 통해 데스크탑에서 TensorFlow의 내장 GUI인 TensorBoard에 액세스할 수도 있습니다. 자신만의 SSH 키를 구성하려면 지침을 따르세요. 여기에서 지금 확인해 보세요.. 데스크탑 패널의 노드 액세스 섹션에서 연결 스크립트 중 하나를 다운로드하십시오.
데스크탑 연결
스크립트에서 사용자 이름과 IP 주소를 가져옵니다. 그런 다음 포트 6006을 로컬 호스트로 전달하고 TensorBoard를 실행하십시오.

ssh -L 6006:localhost:6006 @ 텐서보드 –logdir=/tmp/cifar10_train

이제 로컬 브라우저에서 다음 위치에 액세스할 수 있습니다. 
https://localhost:6006. 우리가 사용하고 있는 특정 훈련 예시는 이미 설정되어 있습니다. /tmp/cifar10_train 훈련 로그의 기본 위치로 사용됩니다. TensorBoard에 나타나는 2개의 네트워크 그래프는 다음과 같습니다. 두 개의 컨볼루셔널 레이어:
cifar_hacking2conv
XNUMX개의 컨볼루셔널 레이어:
cifar_hacking3conv

배치 훈련
노트북 GPU에서 2~3세대 동안 10계층 및 20계층 컨벌루션 네트워크를 훈련하면 실제로 3계층 네트워크의 손실이 더 빠르게 감소하는 것을 볼 수 있습니다. 이제 우리는 더 깊은 네트워크가 더 오래 훈련할 때 더 나은 정확도를 제공하는지, 아니면 더 짧은 훈련 시간에 동일한 정확도에 도달하는지 확인하고 싶습니다.

업데이트된 3-컨볼루션 계층 코드를 사용하여 노트북에서 직접 배치 훈련 작업을 시작할 수 있습니다. 먼저 노트북을 저장(Ctrl-S)하면 노트북을 일반 Python으로 자동으로 내보내고 노트북과 동일한 디렉터리에 있는 모든 파일이 포함된 작업을 시작하는 쉘 명령 바로 가기가 있습니다.

예 :
렁푸스

구문은 다음과 같습니다.

렁푸스


IPython 셸 마법을 사용하여 데스크톱이나 노트북 내 명령줄에서 실행할 수 있습니다! 통사론.

노트북에서 시작할 때 선택할 수 있는 일부 GPU 코어 유형은 다음과 같습니다.

: 엔비디아 케플러 K520
흑요석: 엔비디아 테슬라 K80

작업 실행이 시작되면 이를 데스크탑에 연결할 수 있으며 작업 파일은 공유 파일 시스템의 일부로 노트북에서 액세스할 수 있습니다. 먼저 첨부합니다.
연결 실행 중
그런 다음 데스크탑에서 파일을 열고 보는 것 외에도 터미널을 열 수도 있습니다.

단말기

터미널에서 파일 등을 테일링할 수 있습니다.
터미널 테일

또는 Rescale 웹 포털에서 작업을 탐색하고 브라우저에서 라이브 테일 파일을 탐색할 수 있습니다. 이를 통해 Rescale 데스크탑을 종료하고 훈련 진행 상황을 계속 모니터링하거나 워크스테이션에서 떨어져 있는 동안 모바일 장치에서 배치 작업을 모니터링할 수 있습니다.
꼬리를 달리는


반복 개발
위에서는 CIFAR10 교육 예제의 단일 개발 반복을 완료했지만 일괄 교육이 완료되면 중지할 필요가 없습니다. 언제든지 배치 훈련 작업을 중지하고 노트북에서 훈련 로그를 더 자세히 검토한 다음 새 훈련 작업을 제출할 수 있습니다.

여기서의 장점은 우리가 사용한 배치 훈련 클러스터와 유사한 하드웨어, 동일한 소프트웨어 구성 및 동일한 훈련 데이터에서 코드를 개발하고 테스트할 수 있다는 것입니다. 이렇게 하면 로컬 워크스테이션에서 수행할 수 있는 테스트와 클라우드의 교육 클러스터 간 소프트웨어 또는 하드웨어 구성의 차이로 인해 발생하는 버그 문제가 사라집니다.

또한, 노트북 환경에서 더 많은 컴퓨팅 작업량을 직접 수행하려는 경우 최대 8개의 K80 GPU(4개의 K80 카드)를 갖춘 Rescale 데스크탑 구성을 이용할 수 있습니다. 이에 대한 액세스를 원하시면 support@rescale.com으로 이메일을 보내주십시오.

위의 작업흐름을 시험해 보려면,
여기에 가입 오늘 바로 Rescale에서 딥러닝을 시작해 보세요.
편집 (2016-10-31) : 사용자 SSH 키 설정을 위한 링크가 추가되었습니다.

저자

  • 마크 휘트니

    Mark Whitney는 Rescale의 엔지니어링 이사입니다. 그의 전문 분야에는 고성능 컴퓨팅 아키텍처, 양자 정보 연구, 클라우드 컴퓨팅이 포함됩니다. 그는 캘리포니아 대학교 버클리 캠퍼스에서 컴퓨터 과학 박사 학위를 취득했습니다.

비슷한 게시물