From 49445f9dd4a8d856a2fdd4505f7152b94e8a044f Mon Sep 17 00:00:00 2001
From: ayrnb <641876696@qq.com>
Date: Thu, 10 Jul 2025 19:40:41 +0800
Subject: [PATCH 1/4] ll dispatch tma

---
 csrc/kernels/internode_ll.cu | 212 +++++++++++++++++++----------------
 1 file changed, 114 insertions(+), 98 deletions(-)
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index dc03c65a..bfed9009 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -7,6 +7,7 @@ namespace deep_ep {
 
 namespace internode_ll {
 
+
 template <int kNumThreads> __launch_bounds__(kNumThreads, 1)
 __global__ void clean_low_latency_buffer(int* clean_0, int num_clean_int_0,
                                          int* clean_1, int num_clean_int_1) {
@@ -36,7 +37,7 @@ void clean_low_latency_buffer(int* clean_0, int num_clean_int_0,
                   clean_0, num_clean_int_0, clean_1, num_clean_int_1);
 }
 
-template <bool kUseFP8, bool kUseUE8M0, int kHidden>
+template <bool kUseFP8, bool kUseUE8M0, int kHidden,int kNumTMABytesPerWarp>
 __global__ __launch_bounds__(1024, 1) void
 dispatch(void* packed_recv_x, void* packed_recv_x_scales,
          int* packed_recv_src_info, int64_t* packed_recv_layout_range,
@@ -82,6 +83,8 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
 
+
+
     // Sending phase
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
         goto LOW_LATENCY_DISPATCH_RECV;
@@ -91,7 +94,7 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     // 2. The last warp for reading `topk_idx` and count for per-expert information
     if (warp_id < num_warps - 1) {
         constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
-        EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
+        EP_DEVICE_ASSERT(kHidden % kNumElemsPerRead == 0);
         EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kNumPerChannels == 0, "Invalid vectorization");
         const auto num_threads = (num_warps - 1) * 32;
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
@@ -125,7 +128,7 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
 
                     // Reduce amax and scale
                     EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
-                    amax = warp_reduce_max<16>(amax);
+                    amax = half_warp_reduce_max(amax);
                     calculate_fp8_scales(amax, scale, scale_inv, round_scale);
                     if (lane_id == 0 or lane_id == 16)
                         rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
@@ -165,6 +168,14 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
                     const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
                     const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
                     UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                    // if (lane_id == 0) {
+                    //     tma_load_1d(tma_buffer, src_int4_ptr, tma_mbarrier, num_int4_per_msg * sizeof(int4));
+                    //     mbarrier_arrive_and_expect_tx(tma_mbarrier, num_int4_per_msg * sizeof(int4));
+                    //     mbarrier_wait(tma_mbarrier, tma_phase);
+                    //     tma_store_1d(dst_int4_ptr, tma_buffer, num_int4_per_msg * sizeof(int4));
+                    //     tma_store_wait();
+                    // }
+                    // __syncwarp();
                 }
 
                 // Increase counter after finishing
@@ -285,6 +296,21 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
         num_recv_tokens = shared_num_recv_tokens[warp_group_id];
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
 
+        // TMA shared memory and barrier initialization
+        extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
+        auto quarter_hidden_int4 = hidden_int4 / 4;
+        auto quarter_hidden_bytes = quarter_hidden_int4 * static_cast<int>(sizeof(int4));
+        auto tma_buffer_for_warp = smem_tma_buffer + warp_id * kNumTMABytesPerWarp;
+        auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer_for_warp +  quarter_hidden_bytes);
+        uint32_t tma_phase = 0;
+        if (lane_id == 0) {
+            mbarrier_init(tma_mbarrier, 1);
+            fence_view_async_shared();
+            fence_barrier_init();
+            EP_DEVICE_ASSERT(quarter_hidden_bytes + sizeof(uint64_t) <= kNumTMABytesPerWarp);
+        }
+        __syncwarp();
+
         // Copy tokens
         EP_DEVICE_ASSERT(num_scales <= 64);
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
@@ -293,18 +319,45 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
             if (lane_id == 0)
                 recv_src_info[recv_token_begin_idx + i] = ld_nc_global(src_src_idx);
             __syncwarp();
-
+            
             // Copy data
             // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
             const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
             const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * hidden_int4;
-            UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
 
-            // Copy scales
+            // if (lane_id == 0) {
+            //     printf("Before copy - Iteration %d, src_data[0]: (%d, %d, %d, %d)\n", i, src_data[0].x, src_data[0].y, src_data[0].z, src_data[0].w);
+            //     printf("Before copy - Iteration %d, dst_data[0]: (%d, %d, %d, %d)\n", i, dst_data[0].x, dst_data[0].y, dst_data[0].z, dst_data[0].w);
+            // }
+            // UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
+            // __syncwarp();
+            #pragma unroll
+            for (int j = 0; j < 4; ++j) {
+                if (lane_id == 0) {
+                    tma_load_1d(tma_buffer_for_warp, src_data + j * quarter_hidden_int4, tma_mbarrier, quarter_hidden_bytes);
+                    mbarrier_arrive_and_expect_tx(tma_mbarrier, quarter_hidden_bytes);
+                }
+                __syncwarp();
+                mbarrier_wait(tma_mbarrier, tma_phase);
+
+                if (lane_id == 0) {
+                    tma_store_1d( tma_buffer_for_warp,dst_data + j * quarter_hidden_int4, quarter_hidden_bytes, false);
+                    tma_store_wait();
+                }
+                __syncwarp();
+
+            }
+            // if (lane_id == 0) {
+            //     printf("After copy - Iteration %d, src_data[0]: (%d, %d, %d, %d)\n", i, src_data[0].x, src_data[0].y, src_data[0].z, src_data[0].w);
+            //     printf("After copy - Iteration %d, dst_data[0]: (%d, %d, %d, %d)\n", i, dst_data[0].x, dst_data[0].y, dst_data[0].z, dst_data[0].w);
+            // }
+            // __syncwarp();
+
+
             if constexpr (kUseFP8) {
-                // Equivalent CuTe layout:
-                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                // 3. Scatter scales from shared memory to global memory
                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                // const auto smem_scales = reinterpret_cast<const float*>(static_cast<const uint8_t*>(tma_buffer_for_warp) + data_bytes);
                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
                 const auto token_idx = recv_token_begin_idx + i;
                 const auto token_stride = num_elems_per_pack;
@@ -313,14 +366,17 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
                     const auto pack_idx = lane_id / num_elems_per_pack;
                     const auto elem_idx = lane_id % num_elems_per_pack;
                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
+                    // auto scale = extract_required_scale_format<kUseUE8M0>(smem_scales[lane_id]);
                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
                 if (lane_id + 32 < num_scales) {
                     const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
                     const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
                     auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
+                    // auto scale = extract_required_scale_format<kUseUE8M0>(smem_scales[lane_id + 32]);
                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
+
             }
         }
     }
@@ -347,6 +403,8 @@ void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_sms = ceil_div(num_experts, num_warp_groups);
     EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
+    constexpr int kNumTMABytesPerWarp = 4096; // 16KB per warp
+    const int smem_size = kNumTMABytesPerWarp * num_warps;
 
     // Workspace checks
     auto atomic_counter_per_expert = static_cast<int*>(workspace);
@@ -358,11 +416,12 @@ void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
         EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
 
 #define DISPATCH_LAUNCH_CASE(hidden) { \
-auto dispatch_func = dispatch<false, false, hidden>; \
+auto dispatch_func = dispatch<false, false, hidden,kNumTMABytesPerWarp>; \
 if (use_fp8 and not use_ue8m0) \
-    dispatch_func = dispatch<true, false, hidden>; \
+    dispatch_func = dispatch<true, false, hidden,kNumTMABytesPerWarp>; \
 if (use_fp8 and use_ue8m0) \
-    dispatch_func = dispatch<true, true, hidden>; \
+    dispatch_func = dispatch<true, true, hidden,kNumTMABytesPerWarp>; \
+SET_SHARED_MEMORY_FOR_TMA(dispatch_func); \
 LAUNCH_KERNEL(&cfg, dispatch_func, \
               packed_recv_x, packed_recv_x_scales, \
               packed_recv_src_info, packed_recv_layout_range, \
@@ -382,7 +441,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 #undef DISPATCH_LAUNCH_CASE
 }
 
-template <bool kUseLogFMT, int kHidden, int kNumMaxTopk>
+template <int kHidden, int kNumMaxTopk>
 __global__ __launch_bounds__(1024, 1) void
 combine(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
@@ -408,6 +467,19 @@ combine(void* combined_x,
     // Data type staffs
     constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
     const size_t hidden_bf16_int4 = kHidden / kNumElemsPerInt4;
+    const size_t num_bytes_per_token = kHidden * sizeof(nv_bfloat16);
+    // TMA shared memory and barrier initialization
+    // extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
+    // auto tma_buffer = smem_tma_buffer + warp_id * kNumTMABytesPerWarp;
+    // auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer + num_bytes_per_token);
+    // uint32_t tma_phase = 0;
+    // if ( lane_id == 0) {
+    //     mbarrier_init(tma_mbarrier, 1);
+    //     fence_view_async_shared();
+    //     fence_barrier_init();
+    //     EP_DEVICE_ASSERT(num_bytes_per_token + sizeof(uint64_t) <= kNumTMABytesPerWarp);
+    // }
+    // __syncwarp();
 
     // Message package
     constexpr size_t num_bytes_per_slot = kHidden * sizeof(nv_bfloat16);
@@ -452,90 +524,40 @@ combine(void* combined_x,
             const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);
 
             // Copy directly to local rank, or copy to buffer and issue RDMA
-            const auto src_idx = __shfl_sync(0xffffffff, __ldg(local_src_info + token_idx), 0);
+            auto src_idx = __ldg(local_src_info + token_idx);
             const auto buf_ptr = reinterpret_cast<int64_t>(rdma_send_x_vec_row);
             const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) + (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-
-            if (not zero_copy or dst_p2p_ptr != 0) {
-                constexpr int kNumUnrolls = 4;
-                constexpr int hidden_bf16_int4_pad = align(static_cast<int>(hidden_bf16_int4), 32 * kNumUnrolls);
-
-                // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
-                const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
-                const auto cpy_dst_int4_ptr = dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
-                #pragma unroll
-                for (int i = lane_id * kNumUnrolls; i < hidden_bf16_int4_pad; i += 32 * kNumUnrolls) {
-                    // Read
-                    int4 int4_values[kNumUnrolls];
-                    if (i < hidden_bf16_int4) {
-                        #pragma unroll
-                        for (int k = 0; k < kNumUnrolls; ++ k)
-                            int4_values[k] = ld_nc_global(cpy_src_int4_ptr + i + k);
-                    }
-                    auto bf16_values = reinterpret_cast<nv_bfloat16*>(int4_values);
-                    auto uint32_values = reinterpret_cast<uint32_t*>(int4_values);
-
-                    // Simulated cast
-                    if constexpr (kUseLogFMT) {
-                        constexpr float kThreshold = 1;
-                        constexpr float kMinClip = 32; // `== log_2(2 ^ (2 ^ 5))`
-                        constexpr int kNumBits = 10;
-                        constexpr int kNumValues = 1 << (kNumBits - 1);
-                        EP_STATIC_ASSERT(kHidden % (kNumElemsPerInt4 * 32) == 0 and kNumElemsPerInt4 == 8, "Invalid hidden");
-
-                        // Local log amax
-                        float log_abs_values[kNumElemsPerInt4 * kNumUnrolls], log_amax, log_amin, amax;
-                        #pragma unroll
-                        for (int j = 0; j < kNumElemsPerInt4 * kNumUnrolls; ++ j) {
-                            auto value = static_cast<float>(bf16_values[j]);
-                            log_abs_values[j] = log2f_approx(fabsf(value));
-                            amax = j == 0 ? value : fmaxf(amax, fabsf(value));
-                            log_amax = j == 0 ? log_abs_values[j] : fmaxf(log_amax, log_abs_values[j]);
-                            log_amin = value != 0 ? (j == 0 ? log_abs_values[j] : fminf(log_amin, log_abs_values[j])) : log_amin;
-                        }
-
-                        // Reduce per 128 channels
-                        amax = warp_reduce_max<(16 / kNumUnrolls)>(amax);
-                        log_amax = warp_reduce_max<(16 / kNumUnrolls)>(log_amax);
-                        log_amin = fmaxf(warp_reduce_min<(16 / kNumUnrolls)>(log_amin), log_amax - kMinClip);
-
-                        const auto step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
-                        const auto step_inv = 1.0f / step;
-                        const auto rounding = 2.0f - log2f_approx((1.0f + exp2f_approx(step)) * 0.5f) * step_inv;
-
-                        // Use LogFMT only with `amax <= kThreshold` (maybe not all quarter-warps)
-                        if (amax <= kThreshold and log_amin < log_amax) {
-                            // Transform
-                            auto transform = [=](const float& log_abs_value) -> nv_bfloat16 {
-                                const auto encoded = floorf((log_abs_value - log_amin) * step_inv + rounding);
-                                const auto decoded = exp2f_approx((encoded - 1) * step + log_amin);
-                                return decoded; 
-                            };
-                            #pragma unroll
-                            for (int j = 0; j < kNumElemsPerInt4 * kNumUnrolls; j += 2) {
-                                auto bf162_pack = __nv_bfloat162(transform(log_abs_values[j]), transform(log_abs_values[j + 1]));
-                                auto uint32_pack = *reinterpret_cast<uint32_t*>(&bf162_pack);
-                                uint32_values[j / 2] = (uint32_values[j / 2] & 0x80008000) | uint32_pack;
-                            }   
-                        }
-                        __syncwarp();
-                    }
-
-                    // Store
-                    EP_STATIC_ASSERT(hidden_bf16_int4 % kNumUnrolls == 0, "Invalid hidden");
-                    if (i < hidden_bf16_int4) {
-                        #pragma unroll
-                        for (int k = 0; k < kNumUnrolls; ++ k)
-                            st_na_global(cpy_dst_int4_ptr + i + k, int4_values[k]);
-                    }
+            if (dst_p2p_ptr == 0) {
+                const auto buf_int4_ptr = reinterpret_cast<int4*>(buf_ptr);
+                if (not zero_copy) {
+                    
+                    UNROLLED_WARP_COPY(7, lane_id, hidden_bf16_int4, buf_int4_ptr, x_int4, ld_nc_global, st_na_global);
+
+                    // TMA load from global to shared memory
+                    // if (lane_id == 0) {
+                    //     tma_load_1d(tma_buffer, x_int4, tma_mbarrier, hidden * sizeof(nv_bfloat16));
+                    //     mbarrier_arrive_and_expect_tx(tma_mbarrier,hidden * sizeof(nv_bfloat16));
+                    //     mbarrier_wait(tma_mbarrier, tma_phase);
+                    //     tma_store_1d(buf_int4_ptr, tma_buffer, hidden * sizeof(nv_bfloat16));
+                    //     tma_store_wait();
+                    // }
+                    // __syncwarp();
                 }
-            }
-
-            // Issue RDMA
-            // NOTES: for zero-copy mode, we assume the data is already in the send buffer
-            if (dst_p2p_ptr == 0)
                 nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, hidden * sizeof(nv_bfloat16), dst_rank, local_expert_idx, lane_id, token_idx - offset);
+            } else {
+                const auto dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                UNROLLED_WARP_COPY(7, lane_id, hidden_bf16_int4, dst_int4_ptr, x_int4, ld_nc_global, st_na_global);
+                // TMA load from global to shared memory
+                // if (lane_id == 0) {
+                //     tma_load_1d(tma_buffer, x_int4, tma_mbarrier, hidden * sizeof(nv_bfloat16));
+                //     mbarrier_arrive_and_expect_tx(tma_mbarrier,hidden * sizeof(nv_bfloat16));
+                //     mbarrier_wait(tma_mbarrier, tma_phase);
+                //     tma_store_1d(dst_int4_ptr, tma_buffer, hidden * sizeof(nv_bfloat16));
+                //     tma_store_wait();
+                // }
+                // __syncwarp();
+            }
         }
 
         // Put the finishing flag
@@ -616,7 +638,6 @@ void combine(void* combined_x,
              int* next_clean, int num_next_clean_int,
              int num_combined_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
              int num_topk, int num_experts, int rank, int num_ranks,
-             bool use_logfmt,
              void* workspace, int num_device_sms,
              cudaStream_t stream, int phases, bool zero_copy) {
     constexpr int kNumMaxTopk = 9;
@@ -632,13 +653,8 @@ void combine(void* combined_x,
     EP_HOST_ASSERT(sizeof(int) <= NUM_WORKSPACE_BYTES);
     EP_HOST_ASSERT(num_topk <= kNumMaxTopk);
 
-    // Online cast cannot use zero-copy
-    EP_HOST_ASSERT(not (zero_copy and use_logfmt));
-
 #define COMBINE_LAUNCH_CASE(hidden) { \
-auto combine_func = use_logfmt ? \
-    combine<true, hidden, kNumMaxTopk> : \
-    combine<false, hidden, kNumMaxTopk>; \
+auto combine_func = combine<hidden, kNumMaxTopk>; \
 LAUNCH_KERNEL(&cfg, combine_func, \
               combined_x, \
               rdma_recv_x, rdma_recv_flag, rdma_send_x, \

From faf4507a88285f36612cd2069f971b6a95c6e963 Mon Sep 17 00:00:00 2001
From: ayrnb <641876696@qq.com>
Date: Thu, 10 Jul 2025 19:46:25 +0800
Subject: [PATCH 2/4] refine code

---
 csrc/kernels/internode_ll.cu | 53 ++++++++++--------------------------
 1 file changed, 15 insertions(+), 38 deletions(-)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index bfed9009..39c23dc1 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -7,7 +7,6 @@ namespace deep_ep {
 
 namespace internode_ll {
 
-
 template <int kNumThreads> __launch_bounds__(kNumThreads, 1)
 __global__ void clean_low_latency_buffer(int* clean_0, int num_clean_int_0,
                                          int* clean_1, int num_clean_int_1) {
@@ -82,8 +81,21 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
-
-
+    
+    // TMA shared memory and barrier initialization
+    extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
+    auto quarter_hidden_int4 = hidden_int4 / 4;
+    auto quarter_hidden_bytes = quarter_hidden_int4 * static_cast<int>(sizeof(int4));
+    auto tma_buffer_for_warp = smem_tma_buffer + warp_id * kNumTMABytesPerWarp;
+    auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer_for_warp +  quarter_hidden_bytes);
+    uint32_t tma_phase = 0;
+    if (lane_id == 0) {
+        mbarrier_init(tma_mbarrier, 1);
+        fence_view_async_shared();
+        fence_barrier_init();
+        EP_DEVICE_ASSERT(quarter_hidden_bytes + sizeof(uint64_t) <= kNumTMABytesPerWarp);
+    }
+    __syncwarp();
 
     // Sending phase
     if ((phases & LOW_LATENCY_SEND_PHASE) == 0)
@@ -168,14 +180,6 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
                     const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
                     const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
                     UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
-                    // if (lane_id == 0) {
-                    //     tma_load_1d(tma_buffer, src_int4_ptr, tma_mbarrier, num_int4_per_msg * sizeof(int4));
-                    //     mbarrier_arrive_and_expect_tx(tma_mbarrier, num_int4_per_msg * sizeof(int4));
-                    //     mbarrier_wait(tma_mbarrier, tma_phase);
-                    //     tma_store_1d(dst_int4_ptr, tma_buffer, num_int4_per_msg * sizeof(int4));
-                    //     tma_store_wait();
-                    // }
-                    // __syncwarp();
                 }
 
                 // Increase counter after finishing
@@ -296,21 +300,6 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
         num_recv_tokens = shared_num_recv_tokens[warp_group_id];
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
 
-        // TMA shared memory and barrier initialization
-        extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
-        auto quarter_hidden_int4 = hidden_int4 / 4;
-        auto quarter_hidden_bytes = quarter_hidden_int4 * static_cast<int>(sizeof(int4));
-        auto tma_buffer_for_warp = smem_tma_buffer + warp_id * kNumTMABytesPerWarp;
-        auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer_for_warp +  quarter_hidden_bytes);
-        uint32_t tma_phase = 0;
-        if (lane_id == 0) {
-            mbarrier_init(tma_mbarrier, 1);
-            fence_view_async_shared();
-            fence_barrier_init();
-            EP_DEVICE_ASSERT(quarter_hidden_bytes + sizeof(uint64_t) <= kNumTMABytesPerWarp);
-        }
-        __syncwarp();
-
         // Copy tokens
         EP_DEVICE_ASSERT(num_scales <= 64);
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
@@ -324,11 +313,6 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
             // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
             const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
             const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * hidden_int4;
-
-            // if (lane_id == 0) {
-            //     printf("Before copy - Iteration %d, src_data[0]: (%d, %d, %d, %d)\n", i, src_data[0].x, src_data[0].y, src_data[0].z, src_data[0].w);
-            //     printf("Before copy - Iteration %d, dst_data[0]: (%d, %d, %d, %d)\n", i, dst_data[0].x, dst_data[0].y, dst_data[0].z, dst_data[0].w);
-            // }
             // UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
             // __syncwarp();
             #pragma unroll
@@ -347,13 +331,6 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
                 __syncwarp();
 
             }
-            // if (lane_id == 0) {
-            //     printf("After copy - Iteration %d, src_data[0]: (%d, %d, %d, %d)\n", i, src_data[0].x, src_data[0].y, src_data[0].z, src_data[0].w);
-            //     printf("After copy - Iteration %d, dst_data[0]: (%d, %d, %d, %d)\n", i, dst_data[0].x, dst_data[0].y, dst_data[0].z, dst_data[0].w);
-            // }
-            // __syncwarp();
-
-
             if constexpr (kUseFP8) {
                 // 3. Scatter scales from shared memory to global memory
                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);

From 868675f1dca60457dc818e1bec2e77f230ef29ee Mon Sep 17 00:00:00 2001
From: ayrnb <641876696@qq.com>
Date: Thu, 10 Jul 2025 19:50:05 +0800
Subject: [PATCH 3/4] refine code

---
 csrc/kernels/internode_ll.cu | 41 +++---------------------------------
 1 file changed, 3 insertions(+), 38 deletions(-)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 39c23dc1..e9d3739a 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -81,7 +81,7 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
-    
+
     // TMA shared memory and barrier initialization
     extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
     auto quarter_hidden_int4 = hidden_int4 / 4;
@@ -353,7 +353,6 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
                     // auto scale = extract_required_scale_format<kUseUE8M0>(smem_scales[lane_id + 32]);
                     recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
                 }
-
             }
         }
     }
@@ -380,7 +379,7 @@ void dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     const auto num_warps = num_warp_groups * num_warps_per_group;
     const auto num_sms = ceil_div(num_experts, num_warp_groups);
     EP_HOST_ASSERT(num_topk <= kNumMaxTopK);
-    constexpr int kNumTMABytesPerWarp = 4096; // 16KB per warp
+    constexpr int kNumTMABytesPerWarp = 4096; 
     const int smem_size = kNumTMABytesPerWarp * num_warps;
 
     // Workspace checks
@@ -444,19 +443,6 @@ combine(void* combined_x,
     // Data type staffs
     constexpr int kNumElemsPerInt4 = sizeof(int4) / sizeof(nv_bfloat16);
     const size_t hidden_bf16_int4 = kHidden / kNumElemsPerInt4;
-    const size_t num_bytes_per_token = kHidden * sizeof(nv_bfloat16);
-    // TMA shared memory and barrier initialization
-    // extern __shared__ __align__(1024) uint8_t smem_tma_buffer[];
-    // auto tma_buffer = smem_tma_buffer + warp_id * kNumTMABytesPerWarp;
-    // auto tma_mbarrier = reinterpret_cast<uint64_t*>(tma_buffer + num_bytes_per_token);
-    // uint32_t tma_phase = 0;
-    // if ( lane_id == 0) {
-    //     mbarrier_init(tma_mbarrier, 1);
-    //     fence_view_async_shared();
-    //     fence_barrier_init();
-    //     EP_DEVICE_ASSERT(num_bytes_per_token + sizeof(uint64_t) <= kNumTMABytesPerWarp);
-    // }
-    // __syncwarp();
 
     // Message package
     constexpr size_t num_bytes_per_slot = kHidden * sizeof(nv_bfloat16);
@@ -507,33 +493,12 @@ combine(void* combined_x,
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
             if (dst_p2p_ptr == 0) {
                 const auto buf_int4_ptr = reinterpret_cast<int4*>(buf_ptr);
-                if (not zero_copy) {
-                    
+                if (not zero_copy)
                     UNROLLED_WARP_COPY(7, lane_id, hidden_bf16_int4, buf_int4_ptr, x_int4, ld_nc_global, st_na_global);
-
-                    // TMA load from global to shared memory
-                    // if (lane_id == 0) {
-                    //     tma_load_1d(tma_buffer, x_int4, tma_mbarrier, hidden * sizeof(nv_bfloat16));
-                    //     mbarrier_arrive_and_expect_tx(tma_mbarrier,hidden * sizeof(nv_bfloat16));
-                    //     mbarrier_wait(tma_mbarrier, tma_phase);
-                    //     tma_store_1d(buf_int4_ptr, tma_buffer, hidden * sizeof(nv_bfloat16));
-                    //     tma_store_wait();
-                    // }
-                    // __syncwarp();
-                }
                 nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, hidden * sizeof(nv_bfloat16), dst_rank, local_expert_idx, lane_id, token_idx - offset);
             } else {
                 const auto dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
                 UNROLLED_WARP_COPY(7, lane_id, hidden_bf16_int4, dst_int4_ptr, x_int4, ld_nc_global, st_na_global);
-                // TMA load from global to shared memory
-                // if (lane_id == 0) {
-                //     tma_load_1d(tma_buffer, x_int4, tma_mbarrier, hidden * sizeof(nv_bfloat16));
-                //     mbarrier_arrive_and_expect_tx(tma_mbarrier,hidden * sizeof(nv_bfloat16));
-                //     mbarrier_wait(tma_mbarrier, tma_phase);
-                //     tma_store_1d(dst_int4_ptr, tma_buffer, hidden * sizeof(nv_bfloat16));
-                //     tma_store_wait();
-                // }
-                // __syncwarp();
             }
         }
 

From 482c88790c32c4b9a694de6ff5008341d6f33fda Mon Sep 17 00:00:00 2001
From: ayrnb <641876696@qq.com>
Date: Thu, 10 Jul 2025 20:04:12 +0800
Subject: [PATCH 4/4] refine

---
 csrc/kernels/internode_ll.cu | 108 ++++++++++++++++++++++++++++++-----
 1 file changed, 93 insertions(+), 15 deletions(-)

diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index e9d3739a..28778724 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -106,7 +106,7 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
     // 2. The last warp for reading `topk_idx` and count for per-expert information
     if (warp_id < num_warps - 1) {
         constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
-        EP_DEVICE_ASSERT(kHidden % kNumElemsPerRead == 0);
+        EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
         EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kNumPerChannels == 0, "Invalid vectorization");
         const auto num_threads = (num_warps - 1) * 32;
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
@@ -140,7 +140,7 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
 
                     // Reduce amax and scale
                     EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
-                    amax = half_warp_reduce_max(amax);
+                    amax = warp_reduce_max<16>(amax);
                     calculate_fp8_scales(amax, scale, scale_inv, round_scale);
                     if (lane_id == 0 or lane_id == 16)
                         rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
@@ -332,7 +332,8 @@ dispatch(void* packed_recv_x, void* packed_recv_x_scales,
 
             }
             if constexpr (kUseFP8) {
-                // 3. Scatter scales from shared memory to global memory
+                // Equivalent CuTe layout:
+                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
                 const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
                 // const auto smem_scales = reinterpret_cast<const float*>(static_cast<const uint8_t*>(tma_buffer_for_warp) + data_bytes);
                 const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
@@ -417,7 +418,7 @@ LAUNCH_KERNEL(&cfg, dispatch_func, \
 #undef DISPATCH_LAUNCH_CASE
 }
 
-template <int kHidden, int kNumMaxTopk>
+template <bool kUseLogFMT, int kHidden, int kNumMaxTopk>
 __global__ __launch_bounds__(1024, 1) void
 combine(void* combined_x,
         void* rdma_recv_x, int* rdma_recv_flag, void* rdma_send_x,
@@ -487,19 +488,90 @@ combine(void* combined_x,
             const auto rdma_send_x_vec_row = reinterpret_cast<uint8_t*>(rdma_send_type_row);
 
             // Copy directly to local rank, or copy to buffer and issue RDMA
-            auto src_idx = __ldg(local_src_info + token_idx);
+            const auto src_idx = __shfl_sync(0xffffffff, __ldg(local_src_info + token_idx), 0);
             const auto buf_ptr = reinterpret_cast<int64_t>(rdma_send_x_vec_row);
             const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) + (global_expert_idx * num_max_dispatch_tokens_per_rank + src_idx) * num_bytes_per_slot;
             const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-            if (dst_p2p_ptr == 0) {
-                const auto buf_int4_ptr = reinterpret_cast<int4*>(buf_ptr);
-                if (not zero_copy)
-                    UNROLLED_WARP_COPY(7, lane_id, hidden_bf16_int4, buf_int4_ptr, x_int4, ld_nc_global, st_na_global);
-                nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, hidden * sizeof(nv_bfloat16), dst_rank, local_expert_idx, lane_id, token_idx - offset);
-            } else {
-                const auto dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-                UNROLLED_WARP_COPY(7, lane_id, hidden_bf16_int4, dst_int4_ptr, x_int4, ld_nc_global, st_na_global);
+
+            if (not zero_copy or dst_p2p_ptr != 0) {
+                constexpr int kNumUnrolls = 4;
+                constexpr int hidden_bf16_int4_pad = align(static_cast<int>(hidden_bf16_int4), 32 * kNumUnrolls);
+
+                // Read from `cpy_src_int4_ptr` and copy into `cpy_dst_int4_ptr`
+                const auto cpy_src_int4_ptr = zero_copy ? reinterpret_cast<int4*>(buf_ptr) : x_int4;
+                const auto cpy_dst_int4_ptr = dst_p2p_ptr == 0 ? reinterpret_cast<int4*>(buf_ptr) : reinterpret_cast<int4*>(dst_p2p_ptr);
+                #pragma unroll
+                for (int i = lane_id * kNumUnrolls; i < hidden_bf16_int4_pad; i += 32 * kNumUnrolls) {
+                    // Read
+                    int4 int4_values[kNumUnrolls];
+                    if (i < hidden_bf16_int4) {
+                        #pragma unroll
+                        for (int k = 0; k < kNumUnrolls; ++ k)
+                            int4_values[k] = ld_nc_global(cpy_src_int4_ptr + i + k);
+                    }
+                    auto bf16_values = reinterpret_cast<nv_bfloat16*>(int4_values);
+                    auto uint32_values = reinterpret_cast<uint32_t*>(int4_values);
+
+                    // Simulated cast
+                    if constexpr (kUseLogFMT) {
+                        constexpr float kThreshold = 1;
+                        constexpr float kMinClip = 32; // `== log_2(2 ^ (2 ^ 5))`
+                        constexpr int kNumBits = 10;
+                        constexpr int kNumValues = 1 << (kNumBits - 1);
+                        EP_STATIC_ASSERT(kHidden % (kNumElemsPerInt4 * 32) == 0 and kNumElemsPerInt4 == 8, "Invalid hidden");
+
+                        // Local log amax
+                        float log_abs_values[kNumElemsPerInt4 * kNumUnrolls], log_amax, log_amin, amax;
+                        #pragma unroll
+                        for (int j = 0; j < kNumElemsPerInt4 * kNumUnrolls; ++ j) {
+                            auto value = static_cast<float>(bf16_values[j]);
+                            log_abs_values[j] = log2f_approx(fabsf(value));
+                            amax = j == 0 ? value : fmaxf(amax, fabsf(value));
+                            log_amax = j == 0 ? log_abs_values[j] : fmaxf(log_amax, log_abs_values[j]);
+                            log_amin = value != 0 ? (j == 0 ? log_abs_values[j] : fminf(log_amin, log_abs_values[j])) : log_amin;
+                        }
+
+                        // Reduce per 128 channels
+                        amax = warp_reduce_max<(16 / kNumUnrolls)>(amax);
+                        log_amax = warp_reduce_max<(16 / kNumUnrolls)>(log_amax);
+                        log_amin = fmaxf(warp_reduce_min<(16 / kNumUnrolls)>(log_amin), log_amax - kMinClip);
+
+                        const auto step = (log_amax - log_amin) / static_cast<float>(kNumValues - 2);
+                        const auto step_inv = 1.0f / step;
+                        const auto rounding = 2.0f - log2f_approx((1.0f + exp2f_approx(step)) * 0.5f) * step_inv;
+
+                        // Use LogFMT only with `amax <= kThreshold` (maybe not all quarter-warps)
+                        if (amax <= kThreshold and log_amin < log_amax) {
+                            // Transform
+                            auto transform = [=](const float& log_abs_value) -> nv_bfloat16 {
+                                const auto encoded = floorf((log_abs_value - log_amin) * step_inv + rounding);
+                                const auto decoded = exp2f_approx((encoded - 1) * step + log_amin);
+                                return decoded; 
+                            };
+                            #pragma unroll
+                            for (int j = 0; j < kNumElemsPerInt4 * kNumUnrolls; j += 2) {
+                                auto bf162_pack = __nv_bfloat162(transform(log_abs_values[j]), transform(log_abs_values[j + 1]));
+                                auto uint32_pack = *reinterpret_cast<uint32_t*>(&bf162_pack);
+                                uint32_values[j / 2] = (uint32_values[j / 2] & 0x80008000) | uint32_pack;
+                            }   
+                        }
+                        __syncwarp();
+                    }
+
+                    // Store
+                    EP_STATIC_ASSERT(hidden_bf16_int4 % kNumUnrolls == 0, "Invalid hidden");
+                    if (i < hidden_bf16_int4) {
+                        #pragma unroll
+                        for (int k = 0; k < kNumUnrolls; ++ k)
+                            st_na_global(cpy_dst_int4_ptr + i + k, int4_values[k]);
+                    }
+                }
             }
+
+            // Issue RDMA
+            // NOTES: for zero-copy mode, we assume the data is already in the send buffer
+            if (dst_p2p_ptr == 0)
+                nvshmemi_ibgda_put_nbi_warp(dst_ptr, buf_ptr, hidden * sizeof(nv_bfloat16), dst_rank, local_expert_idx, lane_id, token_idx - offset);
         }
 
         // Put the finishing flag
@@ -580,6 +652,7 @@ void combine(void* combined_x,
              int* next_clean, int num_next_clean_int,
              int num_combined_tokens, int hidden, int num_max_dispatch_tokens_per_rank,
              int num_topk, int num_experts, int rank, int num_ranks,
+             bool use_logfmt,
              void* workspace, int num_device_sms,
              cudaStream_t stream, int phases, bool zero_copy) {
     constexpr int kNumMaxTopk = 9;
@@ -595,8 +668,13 @@ void combine(void* combined_x,
     EP_HOST_ASSERT(sizeof(int) <= NUM_WORKSPACE_BYTES);
     EP_HOST_ASSERT(num_topk <= kNumMaxTopk);
 
+    // Online cast cannot use zero-copy
+    EP_HOST_ASSERT(not (zero_copy and use_logfmt));
+
 #define COMBINE_LAUNCH_CASE(hidden) { \
-auto combine_func = combine<hidden, kNumMaxTopk>; \
+auto combine_func = use_logfmt ? \
+    combine<true, hidden, kNumMaxTopk> : \
+    combine<false, hidden, kNumMaxTopk>; \
 LAUNCH_KERNEL(&cfg, combine_func, \
               combined_x, \
               rdma_recv_x, rdma_recv_flag, rdma_send_x, \
@@ -616,4 +694,4 @@ LAUNCH_KERNEL(&cfg, combine_func, \
 
 } // namespace internode_ll
 
-} // namespace deep_ep
+} // namespace deep_ep
\ No newline at end of file