default W4A16 alias to use group_size=128 (vllm-project#94)

markmc · Jun 20, 2024 · 6319bc1 · 6319bc1
1 parent 75436f6
commit 6319bc1
Showing 1 changed file with 1 addition and 3 deletions.
diff --git a/src/compressed_tensors/quantization/quant_scheme.py b/src/compressed_tensors/quantization/quant_scheme.py
@@ -113,9 +113,7 @@ def is_preset_scheme(name: str) -> bool:
 
 W8A8 = dict(weights=QuantizationArgs(), input_activations=QuantizationArgs())
 
-W4A16 = dict(
-    weights=QuantizationArgs(num_bits=4, strategy=QuantizationStrategy.CHANNEL)
-)
+W4A16 = dict(weights=QuantizationArgs(num_bits=4, group_size=128))
 
 FP8 = dict(
     weights=QuantizationArgs(type=QuantizationType.FLOAT),