Skip to content

Communication-Efficient Distributed Deep Learning with Merged Gradient Sparsification on GPUs #13

@mitsuhiko-nozawa

Description

@mitsuhiko-nozawa

一言でいうと

勾配スパース化、計算のパイプライニングで生じる通信と計算のトレードオフを最適化問題として定式化、さらに分散環境下で動作

論文リンク

https://www.comp.hkbu.edu.hk/~chxw/papers/infocom_2020_MGS.pdf

著者/所属機関

Shaohuai Shi†, Qiang Wang†, Xiaowen Chu†∗, Bo Li‡, Yang Qin§, Ruihao Liu¶, Xinxiao Zhao¶
†High-Performance Machine Learning Lab, Department of Computer Science, Hong Kong Baptist University
‡Department of Computer Science and Engineering, The Hong Kong University of Science and Technology
§Department of Computer Science and Technology, Harbin Institute of Technology (Shenzhen)
¶MassGrid.com, Shenzhen District Block Technology Co., Ltd.

投稿日付(yyyy/MM/dd)

IEEE 2020/7/6-9

概要

TopK sparsificationやパイプライニングのような分散環境下でのモデルのそう学習時間を削減するための手法は、その手法自身が新たな計算や通信コストを生み出しており、それがボトルネックになりかねない
二つを組み合わせた手法は LAGS-SGD と呼ばれるが、この手法においてまずイテレーション時間を最小化するように層の連続数を決め、それを元にSGDを適応する。
image

新規性・差分

Topk sparsificationとパイプライニングしつつ、層のマージの最適化を行った点。
image

手法

勾配の通信は、com(a+b) < com(a) + com(b) という関係が成り立つ(同時に送った方が良い).
しかし、スパース化のコストはs(a+b) > s(a) + s(b) である(いっぱいあるとその分大変)。
そのため、L層のうちいくつかの連続する層をまとめることを考える。
image
image
Mはマージor非マージの全ての組み合わせ、tsがスパース化時間、tcが通信時間、τが累計時間(max内はどっちか遅い方)

結果

以下の4つのモデルとデータセットで実験

  • VGG16 - cifar10
  • resnet50 - Imagenet
  • Inceptionv4 - Imagenet
  • 2 layer LSTM - PTB

最終的な収束はvanila SGDと同じくらい
image

vanila SGDと提案手法で、イテレーション内でどこに時間がかかっているかの内訳
ある程度パラメータ数が大きいモデルでは効果的に通信コストを減らせている?
image

コメント

Metadata

Metadata

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions