fix - fix rebase main kv cache

Nancheng-11 · Nancheng-11 · commit 6551053a86e1 · 2026-03-02T11:59:20.000+08:00
diff --git a/rtp_llm/cpp/cache/BlockPoolConfigHelper.h b/rtp_llm/cpp/cache/BlockPoolConfigHelper.h
@@ -125,6 +125,10 @@ class BlockPoolConfigHelper {
         cfg.dtype                   = cache_config.dtype;
         cfg.local_head_num_kv       = spec->local_head_num_kv;
         cfg.enable_hybrid_attention = enable_hybrid_attention;
+        // Scale 3D layout for MLA and indexer; KV 3D only for MLA (concat_and_cache_mla)
+        cfg.is_mla             = cache_config.use_mla || cache_config.is_sparse;
+        cfg.use_mla            = cache_config.use_mla;
+        cfg.seq_size_per_block = static_cast<size_t>(cache_config.seq_size_per_block);
 
         cfg.kv_block_pool_size_bytes =
             static_cast<size_t>(layer_num) * static_cast<size_t>(cfg.block_num) * cfg.kv_block_stride_bytes;
diff --git a/rtp_llm/cpp/cache/CacheConfig.h b/rtp_llm/cpp/cache/CacheConfig.h
@@ -26,7 +26,8 @@ struct CacheConfig {
     rtp_llm::DataType dtype;
     uint32_t          layer_num;      // the number of main model layers
     uint32_t          layer_all_num;  // the number of all layers including mtp modules
-    bool              use_mla = false;
+    bool              use_mla   = false;
+    bool              is_sparse = false;
 
     // Block configuration
     uint32_t block_num;
diff --git a/rtp_llm/cpp/cache/MLAKVCacheSpec.h b/rtp_llm/cpp/cache/MLAKVCacheSpec.h
@@ -26,7 +26,16 @@ struct MLAKVCacheSpec: public KVCacheSpec {
     }
 
     size_t block_size() const override {
-        return local_head_num_kv * (kv_lora_rank + rope_head_dim) * seq_size_per_block;
+        auto is_fp8      = (dtype == DataType::TYPE_FP8_E4M3 || dtype == DataType::TYPE_FP8_E8M0);
+        auto single_size = local_head_num_kv * (kv_lora_rank + rope_head_dim);
+        if (is_fp8) {
+            // First 512 bytes: The "quantized NoPE" part, containing 512 float8_e4m3 values.
+            // Next 16 bytes: Scale factors, containing 4 float32 values. The first float32 is the scale for the first
+            // 128 float8_e4m3 values, the second for the next 128, and so on. Last 128 bytes: The "RoPE" part,
+            // containing 64 bfloat16 values. This part is not quantized for accuracy.
+            single_size = local_head_num_kv * (kv_lora_rank + kv_lora_rank / 128 * 4 + rope_head_dim * 2);
+        }
+        return single_size * seq_size_per_block;
     }
     size_t k_block_size() const override {
         return local_head_num_kv * kv_lora_rank * seq_size_per_block;
diff --git a/rtp_llm/cpp/cache/MemoryLayoutConfig.h b/rtp_llm/cpp/cache/MemoryLayoutConfig.h
@@ -31,7 +31,8 @@ struct MemoryLayoutConfig {
     size_t k_scale_stride_bytes = 0;
     size_t v_scale_stride_bytes = 0;
 
-    bool is_mla = false;
+    bool is_mla  = false;  // true for scale 3D layout (MLA or indexer)
+    bool use_mla = false;  // true for KV 3D layout (concat_and_cache_mla path only)
     // TODO(xinfei.sxf) rm head info
     size_t local_head_num_kv  = 0;
     size_t seq_size_per_block = 0;
diff --git a/rtp_llm/cpp/cache/MemoryLayoutStrategy.cc b/rtp_llm/cpp/cache/MemoryLayoutStrategy.cc
@@ -48,26 +48,44 @@ void MemoryLayoutStrategy::processKVTensor(torch::Tensor& kv_cache_tensor) {
                           .dtype(dataTypeToTorchType(data_type_))
                           .device(kv_cache_tensor.device())
                           .requires_grad(false);
-    const int64_t kv_total_bytes  = static_cast<int64_t>(kv_cache_tensor.nbytes());
-    const int64_t kv_typed_numel  = static_cast<int64_t>(static_cast<size_t>(kv_total_bytes) / kv_elem_size);
-    torch::Tensor kv_cache_typed  = torch::from_blob(kv_cache_tensor.data_ptr(), {kv_typed_numel}, kv_options);
-    torch::Tensor reshaped_tensor = kv_cache_typed.reshape({static_cast<int64_t>(config_.layer_num),
-                                                            static_cast<int64_t>(config_.block_num),
-                                                            static_cast<int64_t>(kv_block_stride_elems)});
-
-    clearKVTensor(reshaped_tensor);
+    const int64_t kv_total_bytes = static_cast<int64_t>(kv_cache_tensor.nbytes());
+    const int64_t kv_typed_numel = static_cast<int64_t>(static_cast<size_t>(kv_total_bytes) / kv_elem_size);
+    torch::Tensor kv_cache_typed = torch::from_blob(kv_cache_tensor.data_ptr(), {kv_typed_numel}, kv_options);
 
     layer_kv_tensors_.clear();
     layer_kv_tensors_.reserve(config_.layer_num);
 
-    for (uint32_t layer_id = 0; layer_id < config_.layer_num; ++layer_id) {
-        torch::Tensor layer_tensor = reshaped_tensor[layer_id];
-        layer_kv_tensors_.push_back(layer_tensor);
-
-        RTP_LLM_LOG_DEBUG("Layer %d tensor shape: [%s], elements: %ld",
-                          layer_id,
-                          torch::str(layer_tensor.sizes()).c_str(),
-                          layer_tensor.numel());
+    if (config_.use_mla && config_.seq_size_per_block > 0) {
+        // MLA: concat_and_cache_mla expects [num_blocks, block_size, stride] per layer
+        RTP_LLM_CHECK_WITH_INFO(kv_block_stride_elems % config_.seq_size_per_block == 0,
+                                "kv_block_stride_elems=%zu must be divisible by seq_size_per_block=%zu for MLA",
+                                kv_block_stride_elems,
+                                config_.seq_size_per_block);
+        const size_t  stride_elems    = kv_block_stride_elems / config_.seq_size_per_block;
+        torch::Tensor reshaped_tensor = kv_cache_typed.reshape({static_cast<int64_t>(config_.layer_num),
+                                                                static_cast<int64_t>(config_.block_num),
+                                                                static_cast<int64_t>(config_.seq_size_per_block),
+                                                                static_cast<int64_t>(stride_elems)});
+        clearKVTensor(reshaped_tensor);
+        for (uint32_t layer_id = 0; layer_id < config_.layer_num; ++layer_id) {
+            layer_kv_tensors_.push_back(reshaped_tensor[layer_id]);
+            RTP_LLM_LOG_DEBUG("Layer %d KV tensor shape: [%s] (MLA 3D)",
+                              layer_id,
+                              torch::str(layer_kv_tensors_[layer_id].sizes()).c_str());
+        }
+    } else {
+        // MHA: [layer_num, block_num, kv_block_stride_elems], per layer 2D
+        torch::Tensor reshaped_tensor = kv_cache_typed.reshape({static_cast<int64_t>(config_.layer_num),
+                                                                static_cast<int64_t>(config_.block_num),
+                                                                static_cast<int64_t>(kv_block_stride_elems)});
+        clearKVTensor(reshaped_tensor);
+        for (uint32_t layer_id = 0; layer_id < config_.layer_num; ++layer_id) {
+            layer_kv_tensors_.push_back(reshaped_tensor[layer_id]);
+            RTP_LLM_LOG_DEBUG("Layer %d tensor shape: [%s], elements: %ld",
+                              layer_id,
+                              torch::str(layer_kv_tensors_[layer_id].sizes()).c_str(),
+                              layer_kv_tensors_[layer_id].numel());
+        }
     }
 }
 
@@ -76,43 +94,74 @@ bool MemoryLayoutStrategy::processScaleTensor(torch::Tensor& kv_scale_tensor) {
         return true;
     }
 
-    RTP_LLM_CHECK_WITH_INFO(kv_scale_tensor.numel() > 0, "kv cache scale tensor is empty, cannot split by layers");
-
     RTP_LLM_CHECK_WITH_INFO(kv_scale_tensor.defined() && kv_scale_tensor.numel() > 0,
                             "kv_scale_tensor must be provided when kv scale is enabled");
     RTP_LLM_CHECK_WITH_INFO(
         kv_scale_tensor.dim() == 1, "kv_scale_tensor must be 1-D, got dim=%ld", kv_scale_tensor.dim());
-    RTP_LLM_CHECK_WITH_INFO(static_cast<size_t>(kv_scale_tensor.numel()) % sizeof(float) == 0,
-                            "kv_scale_tensor bytes must be divisible by sizeof(float): bytes=%ld",
-                            kv_scale_tensor.numel());
-    RTP_LLM_CHECK_WITH_INFO(static_cast<size_t>(kv_scale_tensor.numel()) == config_.kv_scale_pool_size_bytes,
-                            "kv_scale_tensor bytes mismatch: got=%ld expect=%zu",
-                            kv_scale_tensor.numel(),
+    RTP_LLM_CHECK_WITH_INFO(static_cast<size_t>(kv_scale_tensor.nbytes()) == config_.kv_scale_pool_size_bytes,
+                            "kv_scale_tensor bytes mismatch: got=%zu expect=%zu",
+                            static_cast<size_t>(kv_scale_tensor.nbytes()),
                             config_.kv_scale_pool_size_bytes);
-    RTP_LLM_CHECK_WITH_INFO(config_.kv_scale_stride_bytes % sizeof(float) == 0,
-                            "kv_scale_stride_bytes must be divisible by sizeof(float): stride_bytes=%zu",
-                            config_.kv_scale_stride_bytes);
-
-    const size_t scale_stride_elems = config_.kv_scale_stride_bytes / sizeof(float);
-    auto         scale_options =
-        torch::TensorOptions().dtype(torch::kFloat32).device(kv_scale_tensor.device()).requires_grad(false);
-    const int64_t scale_total_bytes = static_cast<int64_t>(kv_scale_tensor.nbytes());
-    const int64_t scale_typed_numel = static_cast<int64_t>(static_cast<size_t>(scale_total_bytes) / sizeof(float));
-    torch::Tensor kv_scale_typed    = torch::from_blob(kv_scale_tensor.data_ptr(), {scale_typed_numel}, scale_options);
-    torch::Tensor reshaped_scale_tensor = kv_scale_typed.reshape({static_cast<int64_t>(config_.layer_num),
-                                                                  static_cast<int64_t>(config_.block_num),
-                                                                  static_cast<int64_t>(scale_stride_elems)});
-    clearScaleTensor(reshaped_scale_tensor);
-
-    layer_kv_scale_tensors_.clear();
-    layer_kv_scale_tensors_.reserve(config_.layer_num);
-    for (uint32_t layer_id = 0; layer_id < config_.layer_num; ++layer_id) {
-        layer_kv_scale_tensors_.push_back(reshaped_scale_tensor[layer_id]);
-
-        RTP_LLM_LOG_DEBUG("Layer %d scale tensor shape: [%s], elements: %ld",
-                          layer_id,
-                          torch::str(layer_kv_scale_tensors_[layer_id].sizes()).c_str(),
-                          layer_kv_scale_tensors_[layer_id].numel());
+
+    if (config_.is_mla) {
+        // MLA: scale is byte-packed (UINT8), shape [layer_num, block_num, seq_size_per_block, bytes_per_token]
+        RTP_LLM_CHECK_WITH_INFO(config_.seq_size_per_block > 0, "seq_size_per_block must be > 0 for MLA scale");
+        RTP_LLM_CHECK_WITH_INFO(config_.kv_scale_stride_bytes % config_.seq_size_per_block == 0,
+                                "kv_scale_stride_bytes=%zu must be divisible by seq_size_per_block=%zu",
+                                config_.kv_scale_stride_bytes,
+                                config_.seq_size_per_block);
+
+        const size_t scale_bytes_per_token = config_.kv_scale_stride_bytes / config_.seq_size_per_block;
+        auto         scale_options =
+            torch::TensorOptions().dtype(torch::kUInt8).device(kv_scale_tensor.device()).requires_grad(false);
+        torch::Tensor kv_scale_typed = torch::from_blob(
+            kv_scale_tensor.data_ptr(), {static_cast<int64_t>(config_.kv_scale_pool_size_bytes)}, scale_options);
+        torch::Tensor reshaped_scale_tensor = kv_scale_typed.reshape({static_cast<int64_t>(config_.layer_num),
+                                                                      static_cast<int64_t>(config_.block_num),
+                                                                      static_cast<int64_t>(config_.seq_size_per_block),
+                                                                      static_cast<int64_t>(scale_bytes_per_token)});
+        reshaped_scale_tensor.fill_(0);
+
+        layer_kv_scale_tensors_.clear();
+        layer_kv_scale_tensors_.reserve(config_.layer_num);
+        for (uint32_t layer_id = 0; layer_id < config_.layer_num; ++layer_id) {
+            layer_kv_scale_tensors_.push_back(reshaped_scale_tensor[layer_id]);
+
+            RTP_LLM_LOG_DEBUG("Layer %d scale tensor shape: [%s], elements: %ld (MLA)",
+                              layer_id,
+                              torch::str(layer_kv_scale_tensors_[layer_id].sizes()).c_str(),
+                              layer_kv_scale_tensors_[layer_id].numel());
+        }
+    } else {
+        // MHA: scale is FP32, shape [layer_num, block_num, scale_stride_elems] for kernel/model
+        RTP_LLM_CHECK_WITH_INFO(static_cast<size_t>(kv_scale_tensor.numel()) % sizeof(float) == 0,
+                                "kv_scale_tensor bytes must be divisible by sizeof(float): bytes=%ld",
+                                kv_scale_tensor.numel());
+        RTP_LLM_CHECK_WITH_INFO(config_.kv_scale_stride_bytes % sizeof(float) == 0,
+                                "kv_scale_stride_bytes must be divisible by sizeof(float): stride_bytes=%zu",
+                                config_.kv_scale_stride_bytes);
+
+        const size_t scale_stride_elems = config_.kv_scale_stride_bytes / sizeof(float);
+        auto         scale_options =
+            torch::TensorOptions().dtype(torch::kFloat32).device(kv_scale_tensor.device()).requires_grad(false);
+        const int64_t scale_total_bytes = static_cast<int64_t>(kv_scale_tensor.nbytes());
+        const int64_t scale_typed_numel = static_cast<int64_t>(static_cast<size_t>(scale_total_bytes) / sizeof(float));
+        torch::Tensor kv_scale_typed = torch::from_blob(kv_scale_tensor.data_ptr(), {scale_typed_numel}, scale_options);
+        torch::Tensor reshaped_scale_tensor = kv_scale_typed.reshape({static_cast<int64_t>(config_.layer_num),
+                                                                      static_cast<int64_t>(config_.block_num),
+                                                                      static_cast<int64_t>(scale_stride_elems)});
+        clearScaleTensor(reshaped_scale_tensor);
+
+        layer_kv_scale_tensors_.clear();
+        layer_kv_scale_tensors_.reserve(config_.layer_num);
+        for (uint32_t layer_id = 0; layer_id < config_.layer_num; ++layer_id) {
+            layer_kv_scale_tensors_.push_back(reshaped_scale_tensor[layer_id]);
+
+            RTP_LLM_LOG_DEBUG("Layer %d scale tensor shape: [%s], elements: %ld",
+                              layer_id,
+                              torch::str(layer_kv_scale_tensors_[layer_id].sizes()).c_str(),
+                              layer_kv_scale_tensors_[layer_id].numel());
+        }
     }
 
     return true;
diff --git a/rtp_llm/cpp/cache/SingleConfigCreator.cc b/rtp_llm/cpp/cache/SingleConfigCreator.cc
@@ -26,8 +26,9 @@ CacheConfig SingleConfigCreator::createSingleConfig(const ModelConfig&       mod
     config.block_num          = 0;
     config.seq_size_per_block = static_cast<uint32_t>(model_config.attn_config.tokens_per_block);
 
-    config.use_mla = model_config.attn_config.use_mla;
-    config.dtype   = dtype;
+    config.use_mla   = model_config.attn_config.use_mla;
+    config.dtype     = dtype;
+    config.is_sparse = model_config.attn_config.is_sparse;
 
     KVCacheSpecPtr spec;
     if (model_config.attn_config.use_mla && model_config.mla_ops_type != rtp_llm::MlaOpsType::MHA) {
@@ -47,6 +48,12 @@ CacheConfig SingleConfigCreator::createSingleConfig(const ModelConfig&       mod
     config.kv_scale_stride_bytes = config.cache_specs[0]->scale_block_size_bytes();
     config.kv_scale_size_bytes   = static_cast<size_t>(config.layer_num) * config.kv_scale_stride_bytes;
 
+    if (config.is_sparse) {
+        auto indexer_dim             = model_config.attn_config.indexer_head_dim;
+        config.kv_scale_stride_bytes = (indexer_dim + indexer_dim / 128 * 4) * spec->seq_size_per_block;
+        config.kv_scale_size_bytes   = static_cast<size_t>(config.layer_num) * config.kv_scale_stride_bytes;
+    }
+
     config.block_size_bytes = config.kv_block_size_bytes + config.kv_scale_size_bytes;
     config.group_layer_num  = layer_num;  // only 1 group for SingleConfig