feat:enable fp8 hip_PA

amd-yilizhao · LLLLKKKK · commit 08ad962e1cde · 2025-10-23T14:06:35.000+08:00
diff --git a/rtp_llm/cpp/devices/rocm_impl/ROCmAttentionOp.cc b/rtp_llm/cpp/devices/rocm_impl/ROCmAttentionOp.cc
@@ -1098,16 +1098,8 @@ AttentionModuleOutput ROCmDevice::decoderSelfAttention(const AttentionModulePara
 
     if (init_params_.use_aiter_pa) {
         PrefixPromptBatchWeightsParam prefix_prompt_param;
-        if (init_params_.use_asm_pa) {
-            KVBlockArray kv_block_array = getKVBlockArray(params, *kv_cache_offset, batch_size, params.common.kv_cache->k_cache_buffer->type() == DataType::TYPE_FP8_E4M3, false);
-            prefix_prompt_param.kv_block_array = kv_block_array;
-        }
-        else {
-            KVBlockArray kv_block_array = getKVBlockArray(params, *kv_cache_offset, batch_size, false, true);
-            //PrefixPromptBatchWeightsParam prefix_prompt_param;
-            auto                          offset_kv_block_array = OffsetIndexedKVBlockArray(kv_block_array,(rtp_llm::KVBlockArrayForContextFMHA::DataType*)params.common.kv_cache->kv_cache_block_id->data(), params.common.kv_cache->k_cache_buffer->shape()[0] * params.common.kv_cache->layer_num);
-            prefix_prompt_param.offset_kv_block_array = offset_kv_block_array;
-        }
+        KVBlockArray kv_block_array = getKVBlockArray(params, *kv_cache_offset, batch_size, params.common.kv_cache->k_cache_buffer->type() == DataType::TYPE_FP8_E4M3, false);
+        prefix_prompt_param.kv_block_array = kv_block_array;
 
         auto   token_num          = params.input.shape()[0];
         auto   decoder_batch_size = params.common.decoder_batch_size;
@@ -1208,8 +1200,7 @@ AttentionModuleOutput ROCmDevice::decoderSelfAttention(const AttentionModulePara
                                              store_q,
                                              store_kv,
                                              store_cache,
-                                             nullptr,
-                                             //params.rotary_embedding_coefficient_cache ? params.rotary_embedding_coefficient_cache->data() : nullptr,
+                                             use_rope_cache && rope_cache.defined() ? static_cast<float2*>(rope_cache.data_ptr()) : nullptr,
                                              stream_);
             }
             check_cuda_error();
diff --git a/rtp_llm/cpp/devices/rocm_impl/aiterPA.cc b/rtp_llm/cpp/devices/rocm_impl/aiterPA.cc
@@ -93,7 +93,7 @@ void runAiterPA(const AttentionModuleParams& params, rtp_llm::DeviceBase* device
 
     int64_t block_size = params.configs.tokens_per_block;
 
-    std::string kv_cache_dtype = "auto";
+    std::string kv_cache_dtype = key_cache.dtype() == at::kFloat8_e4m3fnuz ? "fp8" : "auto";
 
     double k_scale = 1.0;
     double v_scale = 1.0;
diff --git a/rtp_llm/cpp/kernels/unfused_attention_kernels.cu b/rtp_llm/cpp/kernels/unfused_attention_kernels.cu
@@ -2588,16 +2588,42 @@ __global__ void add_fusedQKV_bias_transpose_prefill_kernel_v1(T*
             KVBlockArray kv_block_array = param.kv_block_array;
             Tcache*      k_cache = reinterpret_cast<Tcache*>(kv_block_array.getKBlockPtr(batch_idx, dst_kv_seq_idx));
             Tcache*      v_cache = reinterpret_cast<Tcache*>(kv_block_array.getVBlockPtr(batch_idx, dst_kv_seq_idx));
+            if constexpr (std::is_same<Tcache, __nv_fp8_e4m3>::value) {
+                float* k_scale_ptr   = reinterpret_cast<float*>(kv_block_array.getKScalePtr(batch_idx, dst_kv_seq_idx));
+                float* v_scale_ptr   = reinterpret_cast<float*>(kv_block_array.getVScalePtr(batch_idx, dst_kv_seq_idx));
+                const int inScaleIdx = kv_block_array.getKVScaleLocalIdx(dst_kv_seq_idx, head_idx);
+
+                __shared__ float s_max[2];
+                s_max[0] = float(1 << (8 - 1));
+                s_max[1] = float(1 << (8 - 1));
 
 #pragma unroll
-            for (int vec_i = 0; vec_i < vec_size; vec_i++) {
-                const int inKBlockIdx = kv_block_array.getKLocalIdx<KvCacheDataType::BASE>(
-                    dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
-                k_cache[inKBlockIdx] = reinterpret_cast<T*>(&k)[vec_i];
+                for (int vec_i = 0; vec_i < vec_size; vec_i++) {
+                    const int inKBlockIdx = kv_block_array.getKLocalIdx<KvCacheDataType::FP8>(
+                        dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
 
-                const int inVBlockIdx = kv_block_array.getVLocalIdx(
+                    const int inVBlockIdx = kv_block_array.getVLocalIdx(
                         dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
-                v_cache[inVBlockIdx] = reinterpret_cast<T*>(&v)[vec_i];
+
+                    k_cache[inKBlockIdx] = Tcache(float(reinterpret_cast<T*>(&k)[vec_i]) * (float(1 << (8 - 1)) / s_max[0]));
+                    v_cache[inVBlockIdx] = Tcache(float(reinterpret_cast<T*>(&v)[vec_i]) * (float(1 << (8 - 1)) / s_max[1]));
+                }
+
+                if (tidx == 0) {
+                    *reinterpret_cast<float*>(&k_scale_ptr[inScaleIdx]) = s_max[0] / float(1 << (8 - 1));
+                    *reinterpret_cast<float*>(&v_scale_ptr[inScaleIdx]) = s_max[1] / float(1 << (8 - 1));
+                }
+            } else {
+#pragma unroll
+                for (int vec_i = 0; vec_i < vec_size; vec_i++) {
+                    const int inKBlockIdx = kv_block_array.getKLocalIdx<KvCacheDataType::BASE>(
+                        dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
+                    k_cache[inKBlockIdx] = reinterpret_cast<T*>(&k)[vec_i];
+
+                    const int inVBlockIdx = kv_block_array.getVLocalIdx(
+                            dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
+                    v_cache[inVBlockIdx] = reinterpret_cast<T*>(&v)[vec_i];
+                }
             }
         }
     }
@@ -2993,7 +3019,8 @@ __global__ void add_fusedQKV_bias_transpose_decode_kernel_v1(T*
                                                              bool       store_qkv,
                                                              bool       store_q,
                                                              bool       store_kv,
-                                                             bool       store_cache) {
+                                                             bool       store_cache,
+                                                             const float2* cos_sin_cache) {
     extern __shared__ __align__(sizeof(float2)) char smem_[];
 
     constexpr int vec_size         = Vec_t<T>::size;
@@ -3068,7 +3095,8 @@ __global__ void add_fusedQKV_bias_transpose_decode_kernel_v1(T*
                                          input_len,
                                          prefix_prompt_length,
                                          true /*count_prefix_length*/,
-                                         true /*HANDLE_KV*/);
+                                         true /*HANDLE_KV*/,
+                                         cos_sin_cache);
 
     if (use_logn_attn) {
         logn_attention(q, tlength, rope_config.max_pos);
@@ -3084,19 +3112,43 @@ __global__ void add_fusedQKV_bias_transpose_decode_kernel_v1(T*
 
     if (store_cache) {
         if (head_idx < head_num_kv) {
-            OffsetIndexedKVBlockArray offset_kv_block_array = param.offset_kv_block_array;
-            Tcache* k_cache = reinterpret_cast<Tcache*>(offset_kv_block_array.getKBlockPtr(batch_idx, dst_kv_seq_idx));
-            Tcache* v_cache = reinterpret_cast<Tcache*>(offset_kv_block_array.getVBlockPtr(batch_idx, dst_kv_seq_idx));
+            KVBlockArray kv_block_array = param.kv_block_array;
+            Tcache* k_cache = reinterpret_cast<Tcache*>(kv_block_array.getKBlockPtr(batch_idx, dst_kv_seq_idx));
+            Tcache* v_cache = reinterpret_cast<Tcache*>(kv_block_array.getVBlockPtr(batch_idx, dst_kv_seq_idx));
+            if constexpr (std::is_same<Tcache, __nv_fp8_e4m3>::value) {
+                float* k_scale_ptr   = reinterpret_cast<float*>(kv_block_array.getKScalePtr(batch_idx, dst_kv_seq_idx));
+                float* v_scale_ptr   = reinterpret_cast<float*>(kv_block_array.getVScalePtr(batch_idx, dst_kv_seq_idx));
+                const int inScaleIdx = kv_block_array.getKVScaleLocalIdx(dst_kv_seq_idx, head_idx);
 
+                __shared__ float s_max[2];
+                s_max[0] = float(1 << (8 - 1));
+                s_max[1] = float(1 << (8 - 1));
 #pragma unroll
-            for (int vec_i = 0; vec_i < vec_size; vec_i++) {
-                const int inKBlockIdx = offset_kv_block_array.getKLocalIdx<KvCacheDataType::BASE>(
-                    dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
-                k_cache[inKBlockIdx] = reinterpret_cast<T*>(&k)[vec_i];
-
-                const int inVBlockIdx = offset_kv_block_array.getVLocalIdx(
-                    dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
-                v_cache[inVBlockIdx] = reinterpret_cast<T*>(&v)[vec_i];
+                for (int vec_i = 0; vec_i < vec_size; vec_i++) {
+                    const int inKBlockIdx = kv_block_array.getKLocalIdx<KvCacheDataType::FP8>(
+                        dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
+
+                    const int inVBlockIdx = kv_block_array.getVLocalIdx(
+                        dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
+
+                    k_cache[inKBlockIdx] = Tcache(float(reinterpret_cast<T*>(&k)[vec_i]) * (float(1 << (8 - 1)) / s_max[0]));
+                    v_cache[inVBlockIdx] = Tcache(float(reinterpret_cast<T*>(&v)[vec_i]) * (float(1 << (8 - 1)) / s_max[1]));
+                }
+                if (tidx == 0) {
+                    *reinterpret_cast<float*>(&k_scale_ptr[inScaleIdx]) = s_max[0] / float(1 << (8 - 1));
+                    *reinterpret_cast<float*>(&v_scale_ptr[inScaleIdx]) = s_max[1] / float(1 << (8 - 1));
+                }
+            } else {
+#pragma unroll
+                for (int vec_i = 0; vec_i < vec_size; vec_i++) {
+                    const int inKBlockIdx = kv_block_array.getKLocalIdx<KvCacheDataType::BASE>(
+                        dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
+                    k_cache[inKBlockIdx] = reinterpret_cast<T*>(&k)[vec_i];
+
+                    const int inVBlockIdx = kv_block_array.getVLocalIdx(
+                        dst_kv_seq_idx, head_idx, size_per_head, tidx * vec_size + vec_i);
+                    v_cache[inVBlockIdx] = reinterpret_cast<T*>(&v)[vec_i];
+                }
             }
         }
     }
@@ -3324,7 +3376,8 @@ void invokeAddFusedQKVBiasTransposeDecodeV1(T*                             q_buf
                                                              store_qkv,
                                                              store_q,
                                                              store_kv,
-                                                             store_cache);
+                                                             store_cache,
+                                                             cos_sin_cache);
                 });
             });
         });