0609

hiworldwzj · hiworldwzj · commit 38d3b4738048 · 2025-06-09T15:41:19.000+08:00
diff --git a/lightllm-kernel/test/fusion/add_norm_quant_test.py b/lightllm-kernel/test/fusion/add_norm_quant_test.py
@@ -10,12 +10,13 @@ def torch_add_norm_quant_bf16_fp8(X, R, W, eps=1e-6):
     # 1. Add residual
     X = X.add_(R)
     # 2. rmsnorm
-    normalized = torch.nn.functional.rms_norm(X, (N, ), W, eps=eps)
+    normalized = torch.nn.functional.rms_norm(X, (N,), W, eps=eps)
     # 3. per token quant
     quantized, scales = ops.scaled_fp8_quant(normalized, scale=None, use_per_token_if_dynamic=True)
 
     return quantized, scales
 
+
 class TestFusedAddNormQuantBF16(unittest.TestCase):
     def setUp(self):
         """Set up common test parameters."""
@@ -31,40 +32,65 @@ def test_accuracy(self):
         for batch in self.batchs:
             for seqLen in self.seqLens:
                 for embed_dim in self.embed_dims:
-                        with self.subTest(shape=[batch, seqLen, embed_dim]):
-                            X1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
-                            X2 = X1.clone()
-                            R1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
-                            R2 = R1.clone()
-                            W = torch.rand(size=[embed_dim], device=self.device, dtype=self.dtype) - 0.5
-                            output_real, scales_real = torch_add_norm_quant_bf16_fp8(X1.reshape(-1, X1.shape[2]), R1.reshape(-1, R1.shape[2]), W, self.eps)
-                            output_pred, scales_pred = add_norm_quant_bf16_fp8(X2.reshape(-1, X1.shape[2]), R2.reshape(-1, R2.shape[2]), W, self.eps)
+                    with self.subTest(shape=[batch, seqLen, embed_dim]):
+                        X1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                        X2 = X1.clone()
+                        R1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                        R2 = R1.clone()
+                        W = torch.rand(size=[embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                        output_real, scales_real = torch_add_norm_quant_bf16_fp8(
+                            X1.reshape(-1, X1.shape[2]), R1.reshape(-1, R1.shape[2]), W, self.eps
+                        )
+                        output_pred, scales_pred = add_norm_quant_bf16_fp8(
+                            X2.reshape(-1, X1.shape[2]), R2.reshape(-1, R2.shape[2]), W, self.eps
+                        )
 
-                            self.assertTrue(
-                                error(output_real, output_pred) < 0.01,
-                                f"Accuracy test failed for size {batch}, {seqLen}, {embed_dim}. output_real={output_real}, output_pred={output_pred}"
-                            )
-                            self.assertTrue(
-                                error(scales_real, scales_pred) < 0.01,
-                                f"Accuracy test failed for size {batch}, {seqLen}, {embed_dim}. scales_real={scales_real}, scales_pred={scales_pred}"
-                            )
+                        self.assertTrue(
+                            error(output_real, output_pred) < 0.01,
+                            f"Accuracy test failed for size {batch}, {seqLen}, {embed_dim}. "
+                            f"output_real={output_real}, output_pred={output_pred}",
+                        )
+                        self.assertTrue(
+                            error(scales_real, scales_pred) < 0.01,
+                            f"Accuracy test failed for size {batch}, {seqLen}, {embed_dim}. "
+                            f"scales_real={scales_real}, scales_pred={scales_pred}",
+                        )
 
     def test_performance(self):
         """Test the performance of FusedAddNormQuant using benchmark."""
         for batch in self.batchs:
             for seqLen in self.seqLens:
                 for embed_dim in self.embed_dims:
-                        with self.subTest(shape=[batch, seqLen, embed_dim]):
-                            X1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
-                            X2 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
-                            R1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
-                            R2 = R1.clone()
-                            W = torch.rand(size=[embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                    with self.subTest(shape=[batch, seqLen, embed_dim]):
+                        X1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                        X2 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                        R1 = torch.rand(size=[batch, seqLen, embed_dim], device=self.device, dtype=self.dtype) - 0.5
+                        R2 = R1.clone()
+                        W = torch.rand(size=[embed_dim], device=self.device, dtype=self.dtype) - 0.5
+
+                        shape = [[batch, seqLen, embed_dim]]
+                        tflops = 0.0
+                        benchmark(
+                            torch_add_norm_quant_bf16_fp8,
+                            shape,
+                            tflops,
+                            100,
+                            X1.reshape(-1, X1.shape[2]),
+                            R1.reshape(-1, R1.shape[2]),
+                            W,
+                            self.eps,
+                        )
+                        benchmark(
+                            add_norm_quant_bf16_fp8,
+                            shape,
+                            tflops,
+                            100,
+                            X2.reshape(-1, X1.shape[2]),
+                            R2.reshape(-1, R2.shape[2]),
+                            W,
+                            self.eps,
+                        )
 
-                            shape = [[batch, seqLen, embed_dim]]
-                            tflops = 0.0
-                            benchmark(torch_add_norm_quant_bf16_fp8, shape, tflops, 100, X1.reshape(-1, X1.shape[2]), R1.reshape(-1, R1.shape[2]), W, self.eps)
-                            benchmark(add_norm_quant_bf16_fp8, shape, tflops, 100, X2.reshape(-1, X1.shape[2]), R2.reshape(-1, R2.shape[2]), W, self.eps)
 
 if __name__ == "__main__":
-    unittest.main()
+    unittest.main()
diff --git a/lightllm-kernel/test/fusion/gelu_per_token_quant_test.py b/lightllm-kernel/test/fusion/gelu_per_token_quant_test.py
@@ -4,10 +4,12 @@
 from lightllm_kernel.ops import per_token_quant_bf16_fp8, gelu_per_token_quant_bf16_fp8
 from test.utils import benchmark, error
 
+
 def gelu_quant(x):
     y = gelu_fwd(x)
     return per_token_quant_bf16_fp8(y)
 
+
 class TestGeluQuantBF16(unittest.TestCase):
     def setUp(self):
         """Set up common test parameters."""
@@ -21,20 +23,23 @@ def test_accuracy(self):
         for token in self.tokens:
             for hiddenDim in self.hiddenDims:
                 with self.subTest(shape=[token, hiddenDim]):
-                    input = torch.normal(mean=0.0, std=10, size=[token, hiddenDim], device=self.device, dtype=self.dtype)
+                    input = torch.normal(
+                        mean=0.0, std=10, size=[token, hiddenDim], device=self.device, dtype=self.dtype
+                    )
 
                     y_real, scales_real = gelu_quant(input)
                     y_pred, scales_pred = gelu_per_token_quant_bf16_fp8(input)
-                    
+
                     self.assertTrue(
                         error(scales_real, scales_pred) < 0.01,
-                        f"Accuracy test failed for size {token}, {hiddenDim}. scales_real={scales_real}, scales_pred={scales_pred}"
+                        f"Accuracy test failed for size {token}, {hiddenDim}. "
+                        f"scales_real={scales_real}, scales_pred={scales_pred}",
                     )
                     self.assertTrue(
                         error(y_real, y_pred) < 0.01,
-                        f"Accuracy test failed for size {token}, {hiddenDim}. y_real={y_real}, y_pred={y_pred}"
+                        f"Accuracy test failed for size {token}, {hiddenDim}." f"y_real={y_real}, y_pred={y_pred}",
                     )
-                    
+
     def test_performance(self):
         """Test the performance of gelu_per_token_quant using benchmark."""
         for token in self.tokens:
@@ -46,5 +51,6 @@ def test_performance(self):
                     benchmark(gelu_per_token_quant_bf16_fp8, shape, tflops, 100, input)
                     benchmark(gelu_quant, shape, tflops, 100, input)
 
+
 if __name__ == "__main__":
-    unittest.main()
+    unittest.main()
diff --git a/lightllm-kernel/test/fusion/pre_tp_norm_test.py b/lightllm-kernel/test/fusion/pre_tp_norm_test.py
@@ -9,6 +9,7 @@ def pre_tp_norm(input):
     tp_variance = input.pow(2).sum(-1, keepdim=False)
     return tp_variance
 
+
 class TestPreTpNormBF16(unittest.TestCase):
     def setUp(self):
         """Set up common test parameters."""
@@ -27,20 +28,21 @@ def test_accuracy(self):
                     y_pred = pre_tp_norm_bf16(X)
                     self.assertTrue(
                         error(y_pred, y_real) < 0.01,
-                        f"Accuracy test failed for size {batch}, {size}. y_real={y_real}, y_pred={y_pred}"
+                        f"Accuracy test failed for size {batch}, {size}. y_real={y_real}, y_pred={y_pred}",
                     )
 
     def test_performance(self):
         for batch in self.batchs:
             for size in self.sizes:
                 with self.subTest(shape=[batch, size]):
                     X = torch.rand(size=[batch, size], device=self.device, dtype=self.dtype) - 0.5
-                    W = torch.rand(size=[size], device=self.device, dtype=self.dtype) - 0.5
+                    # W = torch.rand(size=[size], device=self.device, dtype=self.dtype) - 0.5
 
                     shape = [[batch, size], [size], [batch, size]]
                     tflops = 0.0
                     benchmark(pre_tp_norm_bf16, shape, tflops, 100, X)
                     benchmark(pre_tp_norm, shape, tflops, 100, X)
 
+
 if __name__ == "__main__":
-    unittest.main()
+    unittest.main()
diff --git a/lightllm-kernel/test/quant/quant_test.py b/lightllm-kernel/test/quant/quant_test.py
@@ -25,11 +25,12 @@ def test_accuracy(self):
                     y_pred, scales_pred = per_token_quant_bf16_fp8(input)
                     self.assertTrue(
                         error(scales_real, scales_pred) < 0.01,
-                        f"Accuracy test failed for size {token}, {hiddenDim}. scales_real={scales_real}, scales_pred={scales_pred}"
+                        f"Accuracy test failed for size {token}, {hiddenDim}."
+                        f"scales_real={scales_real}, scales_pred={scales_pred}",
                     )
                     self.assertTrue(
                         error(y_real, y_pred) < 0.01,
-                        f"Accuracy test failed for size {token}, {hiddenDim}. y_real={y_real}, y_pred={y_pred}"
+                        f"Accuracy test failed for size {token}, {hiddenDim}. y_real={y_real}, y_pred={y_pred}",
                     )
 
     def test_performance(self):
@@ -39,9 +40,10 @@ def test_performance(self):
                 with self.subTest(shape=[token, size]):
                     input = torch.rand(size=[token, size], device=self.device, dtype=self.dtype) - 0.5
                     shape = [[token, size]]
-                    tflops = token * size / 1024**4
+                    tflops = token * size / 1024 ** 4
                     benchmark(per_token_quant_bf16_fp8, shape, tflops, 100, input)
                     benchmark(ops.scaled_fp8_quant, shape, tflops, 100, input, None, True)
 
+
 if __name__ == "__main__":
-    unittest.main()
+    unittest.main()