Rescale で複数の GPU を使用したディープラーニング: トーチ

今日は、複数の GPU を利用して単一のニューラルネットワークをトレーニングする方法について説明します。トーチ機械学習ライブラリ。これは、複数の GPU と複数のノードを使用するためにディープニューラルネットワーク (DNN) トレーニングワークロードをスケールアップする手法に関する一連の記事の最初の記事です。
このシリーズでは、単一ネットワークのトレーニングの並列化に焦点を当てます。構成パラメータを最適化するために複数のネットワークを効率的にトレーニングするという、恥ずかしいほど並列的な問題の詳細については、以下を参照してください。ハイパーパラメータの最適化に関する以前の投稿.
トーチについて
Torch は、Lua プログラミング言語上に構築された軽量で柔軟な tensor ライブラリです。 Torch は機械学習の研究者に人気があるため、多くの新しいディープニューラルネットワークのアイデアがまず Torch に実装され、オープンソース拡張機能として利用可能になります。したがって、最先端の深層学習は、多くの場合、Torch で最初に使用できるようになります。
この欠点は、Torch ドキュメントが実装に遅れることが多いため、実際にやりたいことを示す例が github で見つからない限り、どの Torch モジュールを使用する必要があり、どのように使用するかを理解するのが困難になる可能性があることです。
この一例は、Torch に複数の GPU を使用してニューラルネットワークをトレーニングさせる方法です。インターネットで「マルチ GPU トーチ」を検索すると、次のような結果が得られます。このgithubの問題上位の結果の XNUMX つとして挙げられます。このことから、トーチ環境から複数の GPU にアクセスできることがわかりましたが、この低レベルの構造を使用して複雑なネットワークをトレーニングするにはどうすればよいでしょうか?
データとモデルの並列性
単一のニューラルネットワークをトレーニングする作業を並列化する場合、作業を分割する方法には 2 つの選択肢があります。モデル並列処理とデータ並列処理です。

モデル並列処理を使用すると、各 GPU は、特定のデータバッチに対してネットワーク内のノードのチャンクを実行します。

データ並列処理を使用すると、各 GPU がさまざまなデータバッチに対してネットワーク全体を実行します。
この違いについては詳しく説明しますこの論文ではただし、どちらを使用するかの選択は、GPU 間でどのような種類の同期が必要かに影響します。データの並列処理にはモデルパラメーターの同期が必要で、モデルの並列処理にはチャンク間の入力値と出力値の同期が必要です。
簡単なトーチの例
次に、畳み込みニューラルネットワークをトレーニングする簡単な例を見ていきます。 Torch 自体での単体テスト。このネットワークには、2 つの畳み込み層と 2 つの整流層があります。ネットワーク上で単純な前方および後方パスを実行します。トレーニングのために誤差勾配を実際に計算する代わりに、物事をシンプルにするために誤差勾配をランダムなベクトルに設定するだけです。

'nn' が必要です モデル = nn.Sequential() モデル:add(nn.SpatialConvolution(3, 3, 3, 5)) モデル:add(nn.ReLU(true)) モデル:add(nn.SpatialConvolution(3, 3) , 3, 5)) モデル:add(nn.ReLU(true)) 入力 = torch.round(torch.Tensor(16, 3, 10, 10):uniform(0, 255)) 出力 = model:forward(input ) fakeGradients = 出力:clone():uniform(-0.1, 0.1) モデル:backward(input, fakeGradients)

次に、GPU で実行できるように変換しましょう (この例は、CUDA 互換の GPU がある場合にのみ実行されます)。

'cutorch' が必要です 'cunn' が必要です Cutorch.setDevice(1) モデル = nn.Sequential() モデル:add(nn.SpatialConvolution(3, 3, 3, 5)) モデル:add(nn.ReLU(true)) モデル:add(nn.SpatialConvolution(3, 3, 3, 5)) model:add(nn.ReLU(true)) model:cuda() input = torch.round(torch.CudaTensor(16, 3, 10, 10) :uniform(0, 255)) 出力 = モデル:フォワード(入力) fakeGradients = 出力:clone():uniform(-0.1, 0.1) モデル:バックワード(入力, fakeGradients)

これを GPU で実行するには、次のように呼び出します。 cuda()ネットワーク上で入力を CudaTensor.
次に、モデルを 2 つの GPU に分散させてみましょう (モデルの並列パラダイムの例として)。 GPU デバイス ID を反復処理し、カットーチ.withDevice 各レイヤーを特定の GPU に配置します。

require 'cutorch' require 'cunn' Cutorch.setDevice(1) モデル = nn.Sequential() for i=1, math.min(2, Cutorch.getDeviceCount()) do Cutorch.withDevice(i, function() モデル: add(nn.SpatialConvolution(3, 3, 3, 5)) end) Cutorch.withDevice(i, function() model:add(nn.ReLU(true)) end) end model:cuda() input = torch.round (torch.CudaTensor(16, 3, 10, 10):uniform(0, 255)) 出力 = モデル:フォワード(入力) fakeGradients = 出力:clone():uniform(-0.1, 0.1) モデル:バックワード(入力,偽のグラデーション)

これにより、畳み込み層と ReLU 層が各 GPU に配置されます。前方パスと後方パスでは、GPU 1 と GPU 2 の間で出力を伝播する必要があります。
次に、 nn.DataParallelTable 複数の GPU で実行されているネットワーク全体のコピーにデータのバッチを配布します。 DataParallelTable は、複数のコンテナをラップし、それらのコンテナ全体に入力を分散するトーチコンテナです。

'cutorch' が必要です 'cunn' が必要です Cutorch.setDevice(1) モデル = nn.Sequential() モデル:add(nn.SpatialConvolution(3, 3, 3, 5)) モデル:add(nn.ReLU(true)) モデル:add(nn.SpatialConvolution(3, 3, 3, 5)) model:add(nn.ReLU(true)) model:cuda() gpus = torch.range(1, Cutorch.getDeviceCount()):totable() dpt = nn.DataParallelTable(1):add(model, gpus):cuda() 入力 = torch.round(torch.CudaTensor(16, 3, 10, 10):uniform(0, 255)) 出力 = dpt:forward (入力) fakeGradients = 出力:clone():uniform(-0.1, 0.1) dpt:backward(input, fakeGradients)

したがって、元の Sequential コンテナー上で前方パスと後方パスを実行する代わりに、DataParallelTable コンテナー上でそれを実行し、データが各 GPU 上のネットワークのコピーに分散されます。
Rescaleの求人はこちら上記のコードをすべて使用して、自分自身をクローンして実行できます。
より大きな例
次に、実際の DNN をトレーニングする際の DataParallelTable の使用方法を見てみましょう。 Sergey Zagoruyko の実装を使用します。 CIFAR10 のワイド残差ネットワーク github で。
In train.luaを見ると、ベースニューラルネットワークのすべての並列化がヘルパー関数によって適用されていることがわかります。

モデル:add(utils.makeDataParallelTable(net, opt.nGPU))

掘り下げる makeDataParallelTableを使用すると、上記の最後の例と同様の構造がわかります。 nn.DataParallelTable:追加

関数 utils.makeDataParallelTable(model, nGPU) nGPU > 1 の場合、ローカル gpus = torch.range(1, nGPU):totable() ローカル最速、ベンチマーク = cudnn.fastest、cudnn.benchmark ローカル dpt = nn.DataParallelTable(1, true, true) :add(model, gpus) :threads(function() local cudnn = require 'cudnn' cudnn.fastest, cudnn.benchmark = 最速、ベンチマーク end) dpt.gradInput = nil model = dpt:cuda() endリターンモデル終了

これらのジョブを複製して、Rescale でトレーニングを自分で実行できます。

CIFAR10 Wide ResNet、1 GPU
CIFAR10 Wide ResNet、4 GPU

10 エポックのトレーニングを実行した後、4 GPU ジョブは単一 GPU ジョブよりも約 3.33 倍高速に実行されることがわかります。かなりスケールアップしてますね！
この記事では、Torch を使用したモデルとデータの並列 DNN トレーニングの実装例を示しました。今後の投稿では、他のニューラルネットワークライブラリを使用したマルチ GPU トレーニングの使用法とマルチノードスケーリングについて説明します。

マーク·ホイットニー

Mark Whitney は、Rescale のエンジニアリングディレクターです。彼の専門分野には、ハイパフォーマンスコンピューティングアーキテクチャ、量子情報研究、クラウドコンピューティングが含まれます。彼はカリフォルニア大学バークレー校でコンピューターサイエンスの博士号を取得しています。

すべての投稿を見る

類似の投稿

英語

セキュリティ FAQ: Heartbleed の脆弱性

リスケールエンジニアリング 2014 年 4 月 8 日2023 年 3 月 7 日

7 月 XNUMX 日、Heartbleed バグとして知られる、人気のある OpenSSL 暗号化ソフトウェアライブラリの重大な脆弱性が判明しました。それが…

英語

クイックヒント: 作業ディレクトリのスナップショット

Adam McKenzie 2014 年 11 月 10 日2023 年 3 月 7 日

再スケールジョブの実行時に、再起動や…の目的で、作業ディレクトリのスナップショットを定期的に取得すると便利な場合があります。

英語

React における命令的なクリープ

リスケールエンジニアリング 2015 年 2 月 12 日2023 年 3 月 7 日

React は、コンポーネントが特定の時点でどのように見えるかを記述し、すべての機能を管理できる宣言型フレームワークです。

英語

UIの再設計とともに登場するXNUMXつの新機能

ロバート・コンビエ 2014 年 6 月 6 日2023 年 3 月 7 日

Rescale は、ユーザー (主にエンジニアや科学者) がクラウド上でオンデマンドでコンピューターシミュレーションを実行できるプラットフォームを提供しています。高いレベルでは、…

英語

Rescaleからのホリデーのご挨拶

イレア・グレーデル 2013 年 12 月 10 日2023 年 3 月 21 日

ペースの速いテクノロジーと新進気鋭の起業家的取り組みの中心に位置する Rescale も、2013 年を通じて大きな変化と動きを経験しました。

英語

クラウドサイニックへの対処

ロバート・コンビエ 2018 年 10 月 1 日2023 年 10 月 25 日

ギリシャの哲学者ディオゲネスは、彼の皮肉哲学の象徴として犬を飼っていました。カリフォルニア州サンフランシスコ、1 年 2018 月 XNUMX 日 – 私はバランスが重要であるべきだと信じています…

クッキー	演奏時間	説明
AWSALBCORS	7日	このCookieはアマゾンウェブサービスによって管理され、負荷分散に使用されます。
cookielawinfo-チェックボックス-広告	1年	GDPR Cookie Consentプラグインによって設定されたこのCookieは、「広告」カテゴリのCookieに対するユーザーの同意を記録するために使用されます。
cookielawinfo-チェックボックス-分析	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「分析」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-機能	11か月間	Cookieは、「機能」カテゴリのCookieに対するユーザーの同意を記録するためにGDPRCookieの同意によって設定されます。
cookielawinfo-checkbox-Necessary	11か月間	このCookieはGDPR Cookie Consentプラグインによって設定されます。 Cookieは、「必要」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-その他	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「その他」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
cookielawinfo-チェックボックス-パフォーマンス	11か月間	このCookieは、GDPR CookieConsentプラグインによって設定されます。 Cookieは、「パフォーマンス」カテゴリのCookieに対するユーザーの同意を保存するために使用されます。
visible_cookie_policy	11か月間	CookieはGDPR Cookie Consentプラグインによって設定され、ユーザーがCookieの使用に同意したかどうかを保存するために使用されます。個人データは保存されません。

クッキー	演奏時間	説明
__cf_bm	30 minutes	Cloudflareによって設定されたこのCookieは、Cloudflareボット管理をサポートするために使用されます。
クッキー	2年	LinkedInは、ブラウザIDを認識するために、LinkedInの共有ボタンと広告タグからこのCookieを設定します。
長い	セッション	LinkedInは、ユーザーの言語設定を記憶するようにこのCookieを設定します。
LIDC	1日	LinkedInは、データセンターの選択を容易にするためにlidccookieを設定します。
プレイヤー	1年	Vimeo は、この Cookie を使用して、Vimeo から埋め込みビデオを再生するときにユーザーの設定を保存します。

クッキー	演奏時間	説明
AWSALB	7日	AWSALBは、セッションをターゲットにマッピングするためにアマゾンウェブサービスによって設定されるアプリケーションロードバランサーCookieです。
同期アクティブ	決して	この Cookie は Vimeo によって設定され、訪問者のビデオコンテンツの好みに関するデータが含まれているため、Web サイトは好みの音量やビデオ品質などのパラメータを記憶します。

クッキー	演奏時間	説明
_ga	2年	GoogleAnalyticsによってインストールされた_gacookieは、訪問者、セッション、およびキャンペーンデータを計算し、サイトの分析レポートのサイト使用状況を追跡します。 Cookieは情報を匿名で保存し、ランダムに生成された番号を割り当てて、一意の訪問者を認識します。
_gat_UA-32985745-1	1 minute	ウェブサイトの所有者が訪問者の行動を追跡し、サイトのパフォーマンスを測定できるようにするために、GoogleAnalyticsとGoogleTagManagerによって設定された_gatcookieのバリエーション。名前のpattern要素には、関連するアカウントまたはWebサイトの一意のID番号が含まれています。
_gcl_au	3か月間	Google Tag Managerによって提供され、サービスを使用するWebサイトの広告効率を実験します。
_gid	1日	GoogleAnalyticsによってインストールされた_gidcookieは、訪問者がWebサイトをどのように使用しているかに関する情報を格納すると同時に、Webサイトのパフォーマンスの分析レポートを作成します。収集されるデータには、訪問者の数、ソース、匿名でアクセスするページなどがあります。
同意	2年	YouTubeは、埋め込まれたyoutube-videosを介してこのCookieを設定し、匿名の統計データを登録します。
utm_キャンペーン	過去	Google 広告サービスは、セッションキャンペーン値が存在する場合、この Cookie を設定して保存します。
utm_content	過去	この Cookie は、セッションコンテンツの値を保存するために使用されます (存在する場合)。
utm_source	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
utm_term	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
vuid	2年	VimeoはこのCookieをインストールして、Webサイトにビデオを埋め込むための一意のIDを設定することにより、追跡情報を収集します。

クッキー	演奏時間	説明
_fbp	3か月間	このCookieは、Webサイトにアクセスした後、FacebookまたはFacebook広告を利用したデジタルプラットフォームのいずれかで広告を表示するようにFacebookによって設定されます。
_mkto_trk	2年	Marketo によって提供されるこの Cookie には、ユーザーのサイトの使用状況を追跡するために使用される情報 (一意のユーザー ID など) が含まれています。 Marketo によって設定された Cookie は、Marketo によってのみ読み取り可能です。
fr	3か月間	Facebookは、FacebookピクセルまたはFacebookソーシャルプラグインを備えたサイトで、Web全体のユーザーの行動を追跡することにより、ユーザーに関連する広告を表示するようにこのCookieを設定します。
IDE	1年24日	Google DoubleClick IDE Cookieは、ユーザーがWebサイトを使用して関連する広告を表示する方法に関する情報を、ユーザープロファイルに従って保存するために使用されます。
Personalization_id	2年	Twitter は、ソーシャルメディアの機能を統合および共有するためにこの Cookie を設定し、追跡とターゲティングのためにユーザーが Web サイトをどのように使用するかに関する情報も保存します。
test_cookie	15 minutes	test_cookieはdoubleclick.netによって設定され、ユーザーのブラウザがCookieをサポートしているかどうかを判断するために使用されます。
utm_medium	過去	この Cookie は、訪問者が最初にどこから Web サイトにアクセスしたかを記録するために使用されます。この情報は、Web サイト運営者がマーケティングの効率を知るために使用されます。
VISITOR_INFO1_LIVE	5月27日	ユーザーが新しいプレーヤーインターフェースを取得するか古いプレーヤーインターフェースを取得するかを決定する帯域幅を測定するためにYouTubeによって設定されるCookie。
YSC	セッション	YSC CookieはYoutubeによって設定され、Youtubeページに埋め込まれたビデオのビューを追跡するために使用されます。
yt-リモート接続デバイス	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt-リモートデバイスID	決して	YouTubeは、埋め込まれたYouTubeビデオを使用して、ユーザーのビデオ設定を保存するためにこのCookieを設定します。
yt.innertube :: nextId	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。
yt.innertube ::リクエスト	決して	YouTubeによって設定されたこのCookieは、ユーザーが見たYouTubeの動画に関するデータを保存するための一意のIDを登録します。

クッキー	演奏時間	説明
_chtbl	セッション	説明はありません。
_dtses	30 minutes	説明はありません。
_dtuid	10年	説明はありません。
BIGipServersj30web-nginx-app_https	セッション	全く説明しない
email	過去	説明はありません。
gclid	過去	全く説明しない
ハンドル ip	1月	説明はありません。
handle_landing_page	1月	説明はありません。
handle_original_ref	過去	説明はありません。
ハンドル参照	過去	説明はありません。
handle_url	1月	説明はありません。
li_gc	2年	全く説明しない
muc_ads	2年	全く説明しない
ユーザ名	過去	説明はありません。

Rescale プラットホーム

概要

HPC & AI ソフトウェア

HPC & AI アーキテクチャ

セキュリティ&コンプライアンス

エコシステム統合

価格（英語）

HPC as a Service

インテリジェントバッチ

エラスティック・クラウド・ワークステーション

ストレージ・ファブリック

エンタープライズ管理

チーム管理

パフォーマンス管理

持ち込みソフトウェアをクラウドで利用

デジタルエンジニアリング

AI の物理学

データ管理

計算パイプライン

著者