您好，我想请教一下您BWN的训练细节。

我最近在研究量化相关的方向，看到了您的论文。注意到您使用ResNet-56在cifar100上取得了35.01的错误率，但我自己实现时最高只有43。

我去看了您的resnet56的代码，但因为我没学过caffe所以看不懂。

想请教您一下，您选取的optimizer、学习率退火方式以及相应的超参数是什么？

还有，我看您在别的issue里提到您只量化了weight，请问这里的weight包括bn层及bias吗？

十分感谢