Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees

## 一言でいうと
勾配の通信を、バックプロパゲーションが完全におわた後に行うのではなく、レイヤーでの計算が終わり次第通信を行っていく方法を提案。

### 論文リンク
https://arxiv.org/pdf/1911.08727.pdf

### 著者/所属機関
Shaohuai Shi, Zhenheng Tang, Qiang Wang, Kaiyong Zhao, Xiaowen Chu

### 投稿日付(yyyy/MM/dd)
ECAI 2020/8/19 ~ 2020/9/5

## 概要
モデルの学習時間の短縮のために分散クラスタ上での学習が行われるが、ここで勾配の通信がボトルネックとなる。この解決のために、計算と通信のパイプライン化と、勾配のスパース化の2つのアプローチがとられる。しかしこれらを両立するとなると、バックプロップが完全に終了した後にスパース化を行い、通信を行う必要がある。本手法では、スパース化をレイヤーごとに行うことで、パイプライン化のメリットを最大限得られるようにする。

## 新規性・差分
スパース化と通信をレイヤーごとに行うようにした点。

## 手法
l-1層目のバックプロップを行っているときに、l層目のスパース化と通信を行うようにする。
![image](https://user-images.githubusercontent.com/47178807/120757783-f7782f80-c54b-11eb-8d82-41f51520c26d.png)
アルゴリズム
レイヤーごとのスパース率とイテレーションごとの学習率を決めておく
![image](https://user-images.githubusercontent.com/47178807/120758524-ea0f7500-c54c-11eb-9273-08a35e1f97f4.png)


## 結果
Resnet20 と VGG16 - Cifar10
Inceptionv4 と Resnet50 - ImageNet
 2-layer LSTM - PTB
16ノードでの各モデルの損失の推移とメトリックδ(l)
![image](https://user-images.githubusercontent.com/47178807/120758935-67d38080-c54d-11eb-8304-e82b85deb183.png)
δはレイヤーlでtopKの勾配が他の勾配に比べてどれくらい大きいかを表すもの？
![image](https://user-images.githubusercontent.com/47178807/120761162-dc0f2380-c54f-11eb-8eeb-7c33358167c2.png)

各モデルの学習の収束率
圧縮しない場合と同じくらいの速度で収束している
![image](https://user-images.githubusercontent.com/47178807/120761455-28f2fa00-c550-11eb-81fa-65857a28c63e.png)

各手法での、1イテレーションにかかった時間及び速度向上率
![image](https://user-images.githubusercontent.com/47178807/120761810-89823700-c550-11eb-97e3-2f2d0f117abd.png)



## コメント


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

Description

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions