Skip to content

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

@mitsuhiko-nozawa

Description

@mitsuhiko-nozawa

一言でいうと

勾配の通信を、バックプロパゲーションが完全におわた後に行うのではなく、レイヤーでの計算が終わり次第通信を行っていく方法を提案。

論文リンク

https://arxiv.org/pdf/1911.08727.pdf

著者/所属機関

Shaohuai Shi, Zhenheng Tang, Qiang Wang, Kaiyong Zhao, Xiaowen Chu

投稿日付(yyyy/MM/dd)

ECAI 2020/8/19 ~ 2020/9/5

概要

モデルの学習時間の短縮のために分散クラスタ上での学習が行われるが、ここで勾配の通信がボトルネックとなる。この解決のために、計算と通信のパイプライン化と、勾配のスパース化の2つのアプローチがとられる。しかしこれらを両立するとなると、バックプロップが完全に終了した後にスパース化を行い、通信を行う必要がある。本手法では、スパース化をレイヤーごとに行うことで、パイプライン化のメリットを最大限得られるようにする。

新規性・差分

スパース化と通信をレイヤーごとに行うようにした点。

手法

l-1層目のバックプロップを行っているときに、l層目のスパース化と通信を行うようにする。
image
アルゴリズム
レイヤーごとのスパース率とイテレーションごとの学習率を決めておく
image

結果

Resnet20 と VGG16 - Cifar10
Inceptionv4 と Resnet50 - ImageNet
2-layer LSTM - PTB
16ノードでの各モデルの損失の推移とメトリックδ(l)
image
δはレイヤーlでtopKの勾配が他の勾配に比べてどれくらい大きいかを表すもの?
image

各モデルの学習の収束率
圧縮しない場合と同じくらいの速度で収束している
image

各手法での、1イテレーションにかかった時間及び速度向上率
image

コメント

Metadata

Metadata

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions