resolve merge conflicts

may- · may- · commit 130ba9c68c4d · 2022-09-15T09:20:08.000+02:00
diff --git a/README.md b/README.md
@@ -31,6 +31,7 @@ JoeyS2T is built on [PyTorch](https://pytorch.org/). Please make sure you have a
 We tested JoeyS2T with
 - python 3.10
 - torch 1.12.1
+- torchaudio 0.12.1
 - cuda 11.6
 
 Clone this repository and install via pip:
diff --git a/joeynmt/datasets.py b/joeynmt/datasets.py
@@ -162,14 +162,16 @@ def _is_valid(s, t, has_trg):
             trg, trg_length = None, None
 
         return Batch(
-            src=torch.tensor(src).long(),
+            src=(torch.tensor(src).long()
+                 if self.task == "MT" else torch.tensor(src).float()),
             src_length=torch.tensor(src_length).long(),
             trg=torch.tensor(trg).long() if trg else None,
             trg_length=torch.tensor(trg_length).long() if trg_length else None,
             device=device,
             pad_index=pad_index,
             has_trg=self.has_trg,
             is_train=self.split == "train",
+            task=self.task,
         )
 
     def make_iter(
diff --git a/joeynmt/model.py b/joeynmt/model.py
@@ -92,7 +92,6 @@ def loss_function(self, cfg: Tuple):
             self.decoder.ctc_output_layer = None
         self._loss_function = loss_function
 
-    @torch.autocast(device_type=DEVICE_TYPE)
     def forward(self,
                 return_type: str = None,
                 **kwargs) -> Tuple[Tensor, Tensor, Tensor, Tensor]:
diff --git a/joeynmt/tokenizers.py b/joeynmt/tokenizers.py
@@ -556,7 +556,6 @@ def build_tokenizer(data_cfg: Dict) -> Dict[str, BasicTokenizer]:
         src_lang: _build_tokenizer(data_cfg["src"]),
         trg_lang: _build_tokenizer(data_cfg["trg"]),
     }
-    log_str = "Tokenizer" if task == "MT" else "SpeechProcessor"
-    logger.info("%s %s: %s", src_lang, log_str, tokenizer[src_lang])
+    logger.info("%s Tokenizer: %s", src_lang, tokenizer[src_lang])
     logger.info("%s Tokenizer: %s", trg_lang, tokenizer[trg_lang])
     return tokenizer
diff --git a/scripts/discord_joey.py b/scripts/discord_joey.py
@@ -21,7 +21,6 @@
 - Slash Commands:
     https://guide.pycord.dev/interactions/application-commands/slash-commands
 """
-import re
 from functools import partial
 from pathlib import Path
 
@@ -40,7 +39,6 @@
 from joeynmt.tokenizers import build_tokenizer
 from joeynmt.vocabulary import build_vocab
 
-
 TOKEN = "your-bot-token-here"  # replace with your bot token
 guild = 123456789  # replace with your guild ID
 
diff --git a/test/unit/test_data.py b/test/unit/test_data.py
@@ -117,8 +117,7 @@ def testIteratorBatchShape(self):
 
         # make train batches (filtered by length)
         train_iter = iter(
-            make_data_iter(
-                train_data,
+            train_data.make_iter(
                 batch_size=2,
                 batch_type="sentence",
                 shuffle=True,
@@ -136,8 +135,7 @@ def testIteratorBatchShape(self):
 
         # make test batches (not filtered by length)
         test_iter = iter(
-            make_data_iter(
-                test_data,
+            test_data.make_iter(
                 batch_size=2,
                 batch_type="sentence",
                 shuffle=False,
diff --git a/test/unit/test_transformer_encoder.py b/test/unit/test_transformer_encoder.py
@@ -59,50 +59,34 @@ def test_transformer_encoder_forward(self):
                          torch.Size([batch_size, time_dim, self.hidden_size]))
         self.assertEqual(hidden, None)
 
+        # yapf: disable
         output_target = torch.Tensor([
-            [[
-                1.9728e-01, -1.2042e-01, 8.0998e-02, 1.3411e-03, -3.5960e-01,
-                -5.2988e-01, -5.6056e-01, -3.5297e-01, 2.6680e-01, 2.8343e-01,
-                -3.7342e-01, -5.9113e-03
-            ],
-             [
-                 8.9687e-02, -1.2491e-01, 7.7809e-02, -1.3499e-03, -2.7002e-01,
-                 -4.7312e-01, -5.7981e-01, -4.1998e-01, 1.0457e-01, 2.9726e-01,
-                 -3.9461e-01, 8.1598e-02
-             ],
-             [
-                 3.4988e-02, -1.3020e-01, 6.0043e-02, 2.7782e-02, -3.1483e-01,
-                 -3.8940e-01, -5.5557e-01, -5.9540e-01, -2.9808e-02, 3.1468e-01,
-                 -4.5809e-01, 4.3312e-03
-             ],
-             [
-                 1.2234e-01, -1.3285e-01, 6.3068e-02, -2.3343e-02, -2.3519e-01,
-                 -4.0794e-01, -5.6063e-01,
-                 -5.5484e-01, -1.1272e-01,
-                 3.0103e-01, -4.0983e-01, 3.3038e-02
-             ]],
-            [[
-                9.8597e-02, -1.2121e-01, 1.0718e-01, -2.2644e-02, -4.0282e-01,
-                -4.2646e-01, -5.9981e-01,
-                -3.7200e-01, 1.9538e-01, 2.7036e-01, -3.4072e-01, -1.7965e-03
-            ],
-             [
-                 8.8470e-02, -1.2618e-01, 5.3351e-02, -1.8531e-02, -3.3834e-01,
-                 -4.9047e-01, -5.7063e-01, -4.9790e-01, 2.2070e-01, 3.3964e-01,
-                 -4.1604e-01, 2.3519e-02
-             ],
-             [
-                 5.8373e-02, -1.2706e-01, 1.0598e-01, 9.3256e-05, -3.0493e-01,
-                 -4.4406e-01, -5.4723e-01, -5.2214e-01, 8.0374e-02, 2.6307e-01,
-                 -4.4571e-01, 8.7052e-02
-             ],
-             [
-                 7.9567e-02, -1.2977e-01, 1.1731e-01, 2.6198e-02, -2.4024e-01,
-                 -4.2161e-01, -5.7604e-01, -7.3298e-01, 1.6698e-01, 3.1454e-01,
-                 -4.9189e-01, 2.4027e-02
-             ]]
+            [[1.9728e-01, -1.2042e-01, 8.0998e-02, 1.3411e-03, -3.5960e-01,
+              -5.2988e-01, -5.6056e-01, -3.5297e-01, 2.6680e-01, 2.8343e-01,
+              -3.7342e-01, -5.9112e-03],
+             [8.9687e-02, -1.2491e-01, 7.7809e-02, -1.3500e-03, -2.7002e-01,
+              -4.7312e-01, -5.7981e-01, -4.1998e-01, 1.0457e-01, 2.9726e-01,
+              -3.9461e-01, 8.1598e-02],
+             [3.4988e-02, -1.3020e-01, 6.0043e-02, 2.7782e-02, -3.1483e-01,
+              -3.8940e-01, -5.5557e-01, -5.9540e-01, -2.9808e-02, 3.1468e-01,
+              -4.5809e-01, 4.3313e-03],
+             [1.2234e-01, -1.3285e-01, 6.3068e-02, -2.3343e-02, -2.3519e-01,
+              -4.0794e-01, -5.6063e-01, -5.5484e-01, -1.1272e-01, 3.0103e-01,
+              -4.0983e-01, 3.3038e-02]],
+            [[9.8597e-02, -1.2121e-01, 1.0718e-01, -2.2644e-02, -4.0282e-01,
+              - 4.2646e-01, -5.9981e-01, -3.7200e-01, 1.9538e-01, 2.7036e-01,
+              -3.4072e-01, -1.7965e-03],
+             [8.8470e-02, -1.2618e-01, 5.3351e-02, -1.8531e-02, -3.3834e-01,
+              -4.9047e-01, -5.7063e-01, -4.9790e-01, 2.2070e-01, 3.3964e-01,
+              -4.1604e-01, 2.3519e-02],
+             [5.8373e-02, -1.2706e-01, 1.0598e-01, 9.3255e-05, -3.0493e-01,
+              -4.4406e-01, -5.4723e-01, -5.2214e-01, 8.0374e-02, 2.6307e-01,
+              -4.4571e-01, 8.7052e-02],
+             [7.9567e-02, -1.2977e-01, 1.1731e-01, 2.6198e-02, -2.4024e-01,
+              -4.2161e-01, -5.7604e-01, -7.3298e-01, 1.6698e-01, 3.1454e-01,
+              -4.9189e-01, 2.4027e-02]],
         ])
-        torch.testing.assert_close(output, output_target)
+        torch.testing.assert_close(output, output_target, rtol=1e-4, atol=1e-4)
 
         for layer in encoder.layers:
             self.assertTrue(isinstance(layer, TransformerEncoderLayer))
@@ -118,7 +102,7 @@ def test_transformer_encoder_forward(self):
             self.assertEqual(layer._layer_norm_position, self.layer_norm)
 
 
-class TestSubsampler(TensorTestCase):
+class TestSubsampler(unittest.TestCase):
 
     def setUp(self):
         self.hidden_size = 12
@@ -149,32 +133,20 @@ def test_subsampler_forward(self):
         # x shape [batch_size, seq_len, emb_dim]: [2, 9, 10] -> [2, 3, 12]
         self.assertEqual(x.size(), torch.Size([batch_size, 3, self.hidden_size]))
 
-        x_target = torch.tensor([[[
-            -0.4831, -0.0188, -0.0643, 0.2323, 0.1843, -0.0599, 0.0333, -0.0295, 0.0926,
-            0.0629, 0.4416, -0.3737
-        ],
-                                  [
-                                      -0.0230, 0.0513, -0.2007, -0.2211, 0.7072, 0.0523,
-                                      -0.0546, 0.0382, -0.0606, -0.8240, -0.3379,
-                                      -0.7052
-                                  ],
-                                  [
-                                      0.0229, 0.1770, -0.2644, -0.5954, 0.8251, -0.0118,
-                                      -0.0228, -0.2697, 0.1242, 0.1570, -0.2263, -0.9022
-                                  ]],
-                                 [[
-                                     -0.4647, 0.0986, -0.1160, 0.0453, 0.2717, -0.0112,
-                                     0.0018, 0.0935, 0.2077, -0.2647, 0.3621, -0.4435
-                                 ],
-                                  [
-                                      0.0116, -0.1874, -0.0305, -0.5209, 0.7063,
-                                      -0.0522, 0.0577, 0.4307, 0.1027, -0.1947, 0.0964,
-                                      -0.8076
-                                  ],
-                                  [
-                                      -0.2909, -0.0827, -0.1345, -0.4011, 0.4482,
-                                      0.4247, 0.2187, -0.2467, 0.0096, -0.2841, 0.0799,
-                                      -1.2243
-                                  ]]])
-        self.assertTensorAlmostEqual(x, x_target)
-        self.assertTensorAlmostEqual(x_length, torch.tensor([3, 3]))
+        # yapf: disable
+        x_target = torch.tensor([
+            [[-0.4831, -0.0188, -0.0643, 0.2323, 0.1843, -0.0599, 0.0333,
+              -0.0295, 0.0926, 0.0629, 0.4416, -0.3737],
+             [-0.0230, 0.0513, -0.2007, -0.2211, 0.7072, 0.0523, -0.0546,
+              0.0382, -0.0606, -0.8240, -0.3379, -0.7052],
+             [0.0229, 0.1770, -0.2644, -0.5954, 0.8251, -0.0118, -0.0228,
+              -0.2697, 0.1242, 0.1570, -0.2263, -0.9022]],
+            [[-0.4647, 0.0986, -0.1160, 0.0453, 0.2717, -0.0112, 0.0018,
+              0.0935, 0.2077, -0.2647, 0.3621, -0.4435],
+             [0.0116, -0.1874, -0.0305, -0.5209, 0.7063, -0.0522, 0.0577,
+              0.4307, 0.1027, -0.1947, 0.0964, -0.8076],
+             [-0.2909, -0.0827, -0.1345, -0.4011, 0.4482, 0.4247, 0.2187,
+              -0.2467, 0.0096, -0.2841, 0.0799, -1.2243]],
+        ])
+        torch.testing.assert_close(x, x_target, rtol=1e-4, atol=1e-4)
+        torch.testing.assert_close(x_length, torch.tensor([3, 3]))

Original file line number	Diff line number	Diff line change
`@@ -556,7 +556,6 @@ def build_tokenizer(data_cfg: Dict) -> Dict[str, BasicTokenizer]:`
`556`	`556`	`src_lang: _build_tokenizer(data_cfg["src"]),`
`557`	`557`	`trg_lang: _build_tokenizer(data_cfg["trg"]),`
`558`	`558`	`}`
`559`		`- log_str = "Tokenizer" if task == "MT" else "SpeechProcessor"`
`560`		`- logger.info("%s %s: %s", src_lang, log_str, tokenizer[src_lang])`
	`559`	`+ logger.info("%s Tokenizer: %s", src_lang, tokenizer[src_lang])`
`561`	`560`	`logger.info("%s Tokenizer: %s", trg_lang, tokenizer[trg_lang])`
`562`	`561`	`return tokenizer`