vectorch-ai
diff --git a/‎.clang-format‎
Lines changed: 1 addition & 0 deletions b/‎.clang-format‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/kernels/attention/CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion b/‎src/kernels/attention/CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/kernels/attention/attention_cpu.h‎
Lines changed: 1 addition & 1 deletion b/‎src/kernels/attention/attention_cpu.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/kernels/attention/attention_test.cpp‎ ‎…kernels/attention/attention_cpu_test.cpp‎src/kernels/attention/attention_test.cpp renamed to src/kernels/attention/attention_cpu_test.cpp
Lines changed: 4 additions & 5 deletions b/‎src/kernels/attention/attention_test.cpp‎ ‎…kernels/attention/attention_cpu_test.cpp‎src/kernels/attention/attention_test.cpp renamed to src/kernels/attention/attention_cpu_test.cpp
Lines changed: 4 additions & 5 deletions
diff --git a/‎src/kernels/attention/attention_kernel_sm80.cuh‎
Lines changed: 267 additions & 0 deletions b/‎src/kernels/attention/attention_kernel_sm80.cuh‎
Lines changed: 267 additions & 0 deletions
@@ -6,6 +6,7 @@ BinPackArguments: false
 ExperimentalAutoDetectBinPacking: false
 AllowAllParametersOfDeclarationOnNextLine: false
 DerivePointerAlignment: false
+AlwaysBreakTemplateDeclarations: Yes
 PointerAlignment: Left
 ColumnLimit: 80
 ...
@@ -18,7 +18,8 @@ cc_test(
     attention_cpu.h
   SRCS
     cute_test.cpp
-    attention_test.cpp
+    attention_cpu_test.cpp
+    attention_kernel_sm80_test.cu
   DEPS
     :attention.kernel
     glog::glog
 
@@ -91,7 +91,7 @@ inline void mha(torch::Tensor query,
           }
           // apply causal mask
           if (kv_idx_base + j > q_idx_base + q_idx) {
-            s(j) = -INFINITY;
+            s(j) = -5e4;
           }
           max = std::max(max, s(j));
         }
 
@@ -1,9 +1,8 @@
-#include <ATen/ops/equal.h>
-#include <gtest/gtest.h>
-#include <torch/csrc/autograd/generated/variable_factories.h>
-
 #include "attention_cpu.h"
 
+#include <gtest/gtest.h>
+#include <torch/torch.h>
+
 namespace llm {
 namespace {
 // Multi-head attention implementation using pytorch
@@ -36,7 +35,7 @@ torch::Tensor masked_self_attention(
   torch::Tensor mask = torch::ones({1, q_seq_len, seq_len}, torch::kBool);
   // returns the lower triangular part of a matrix
   mask = torch::tril(mask, /*diagonal=*/seq_len - q_seq_len).to(query);
-  scores = scores.masked_fill(mask == 0, -INFINITY);
+  scores = scores.masked_fill(mask == 0, -5e4);
 
   // safe softmax
   scores = torch::softmax(scores, /*dim=*/-1);
 
@@ -0,0 +1,267 @@
+#pragma once
+
+#include <cuda.h>
+#include <cuda_runtime.h>
+
+#include <cute/tensor.hpp>
+
+#include "online_softmax.cuh"
+
+namespace llm {
+
+template <typename Traits>
+__global__ void mha_kernel_sm80(void* o,
+                                const void* q,
+                                const void* k,
+                                const void* v,
+                                int h_stride,
+                                int q_len,
+                                int kv_len,
+                                float sm_scale) {
+  using namespace cute;
+
+  // type alias
+  using Element = typename Traits::Element;
+  using BLK_M = typename Traits::BLK_M;
+  using BLK_N = typename Traits::BLK_N;
+  using BLK_K = typename Traits::BLK_K;
+  using HEAD_DIM = typename Traits::HEAD_DIM;
+
+  using TiledMMA = typename Traits::TiledMMA;
+  using Convertor = typename Traits::FragmentConvertor;
+
+  using SmemLayoutQ = typename Traits::SmemLayoutQ;
+  using SmemLayoutK = typename Traits::SmemLayoutKV;
+  using SmemLayoutV = typename Traits::SmemLayoutKV;
+  using SmemLayoutVt = typename Traits::SmemLayoutVt;
+  using SmemLayoutO = typename Traits::SmemLayoutO;
+  using GmemTiledCopyQKV = typename Traits::GmemTiledCopyQKV;
+  using GmemTiledCopyO = typename Traits::GmemTiledCopyO;
+
+  using SmemTiledCopyQ = typename Traits::SmemTiledCopyQ;
+  using SmemTiledCopyK = typename Traits::SmemTiledCopyK;
+  using SmemTiledCopyVT = typename Traits::SmemTiledCopyVT;
+  using SmemTiledCopyO = typename Traits::SmemTiledCopyO;
+
+  const int m_block = blockIdx.x;
+  const int base_id = blockIdx.y;
+  const int tidx = threadIdx.x;
+
+  // ProblemShape
+  // TODO: support non-contiguous layout
+  const int offset = base_id * h_stride;
+  // (q_len, head_dim)
+  auto Q = make_tensor(make_gmem_ptr((Element*)q + offset),
+                       make_shape(q_len, HEAD_DIM{}),
+                       make_stride(HEAD_DIM{}, _1{}));
+  auto O = make_tensor(make_gmem_ptr((Element*)o + offset),
+                       make_shape(q_len, HEAD_DIM{}),
+                       make_stride(HEAD_DIM{}, _1{}));
+  // (kv_len, head_dim)
+  auto K = make_tensor(make_gmem_ptr((Element*)k + offset),
+                       make_shape(kv_len, HEAD_DIM{}),
+                       make_stride(HEAD_DIM{}, _1{}));
+  auto V = make_tensor(make_gmem_ptr((Element*)v + offset),
+                       make_shape(kv_len, HEAD_DIM{}),
+                       make_stride(HEAD_DIM{}, _1{}));
+
+  // CTA/Block Shape
+  // (BLK_M, head_dim)
+  Tensor gQ =
+      local_tile(Q, make_tile(BLK_M{}, HEAD_DIM{}), make_coord(m_block, _));
+  Tensor gO =
+      local_tile(O, make_tile(BLK_M{}, HEAD_DIM{}), make_coord(m_block, _));
+
+  // (BLK_N, head_dim)
+  Tensor gK = local_tile(K, make_tile(BLK_N{}, HEAD_DIM{}), make_coord(0, _));
+  Tensor gV = local_tile(V, make_tile(BLK_N{}, HEAD_DIM{}), make_coord(0, _));
+
+  // Smem
+  extern __shared__ char smem[];
+  Element* q_smem = (Element*)smem;
+  Element* k_smem = q_smem + cosize(SmemLayoutQ{});
+  Element* v_smem = k_smem + cosize(SmemLayoutK{});
+
+  // (BLK_M, BLK_K), k-major
+  Tensor sQ = make_tensor(make_smem_ptr(q_smem), SmemLayoutQ{});
+  // (BLK_N, BLK_K), k-major
+  Tensor sK = make_tensor(make_smem_ptr(k_smem), SmemLayoutK{});
+  Tensor sV = make_tensor(make_smem_ptr(v_smem), SmemLayoutV{});
+
+  // Tensor for V^t; used in GEMM-II.
+  // (BLK_K, BLK_N), k-major
+  Tensor sVt = make_tensor(make_smem_ptr(v_smem), SmemLayoutVt{});
+
+  // Fragments for GEMM
+  TiledMMA tiled_mma;
+  auto thr_mma = tiled_mma.get_slice(tidx);
+  // GEMM-I: S = Q@K.T
+  auto tSrQ = thr_mma.partition_fragment_A(sQ);  // (MMA,MMA_M,MMA_K)
+  auto tSrK = thr_mma.partition_fragment_B(sK);  // (MMA,MMA_N,MMA_K)
+  auto tSrAccS = partition_fragment_C(
+      tiled_mma, Shape<BLK_M, BLK_N>{});  // (MMA,MMA_M,MMA_N)
+
+  // GEMM-II: O = softmax(S)@V
+  auto tOrVt = thr_mma.partition_fragment_B(sVt);  // (MMA,MMA_K,MMA_N)
+  auto tOrAccO = partition_fragment_C(
+      tiled_mma, Shape<BLK_M, HEAD_DIM>{});  // (MMA,MMA_M,MMA_K)
+
+  // reshape for iterating over rows and columns
+  auto tOrAccO_rc_view = Convertor::to_rowcol(tOrAccO);
+  auto tSrAccS_rc_view = Convertor::to_rowcol(tSrAccS);
+
+  // Tiled Copy
+  // g2s tiled copy for qkv
+  GmemTiledCopyQKV gmem_tiled_copy_QKV;
+  auto gmem_thr_copy_QKV = gmem_tiled_copy_QKV.get_thread_slice(tidx);
+  auto tQgQ = gmem_thr_copy_QKV.partition_S(gQ(_, _, 0));
+  auto tQsQ = gmem_thr_copy_QKV.partition_D(sQ);
+  auto tKgK = gmem_thr_copy_QKV.partition_S(gK(_, _, 0));
+  auto tKsK = gmem_thr_copy_QKV.partition_D(sK);
+  auto tVgV = gmem_thr_copy_QKV.partition_S(gV(_, _, 0));
+  auto tVsV = gmem_thr_copy_QKV.partition_D(sV);
+
+  // s2r tiled copy for qkv
+  SmemTiledCopyQ smem_tiled_copy_Q;
+  auto smem_thr_copy_Q = smem_tiled_copy_Q.get_thread_slice(tidx);
+  auto tSsQ = smem_thr_copy_Q.partition_S(sQ);
+  auto tSrQ_copy_view = smem_thr_copy_Q.retile_D(tSrQ);
+
+  SmemTiledCopyK smem_tiled_copy_K;
+  auto smem_thr_copy_K = smem_tiled_copy_K.get_thread_slice(tidx);
+  auto tSsK = smem_thr_copy_K.partition_S(sK);
+  auto tSrK_copy_view = smem_thr_copy_K.retile_D(tSrK);
+
+  SmemTiledCopyVT smem_tiled_copy_Vt;
+  auto smem_thr_copy_Vt = smem_tiled_copy_Vt.get_thread_slice(tidx);
+  auto tOsVt = smem_thr_copy_Vt.partition_S(sVt);
+  auto tOrVt_copy_view = smem_thr_copy_Vt.retile_D(tOrVt);
+
+  // ###############  Prologue  ###############
+
+  // produce q: [] => [q]
+  cute::copy(gmem_tiled_copy_QKV, tQgQ, tQsQ);
+  cp_async_fence();
+
+  // produce k: [q] => [q, k]
+  cute::copy(gmem_tiled_copy_QKV, tKgK, tKsK);
+  cp_async_fence();
+
+  // wait q: [q, k] => [k]
+  cp_async_wait<1>();
+  __syncthreads();
+
+  // apply sm_scale
+  // TODO: use thread parallelism
+  for (int i = 0; i < size(tQsQ); ++i) {
+    tQsQ(i) = Element(tQsQ(i) * sm_scale);
+  }
+
+  // RowsPerThread = #rows_per_MMA * #MMA_M
+  constexpr int RowsPerThread = 2 * size<1>(tOrAccO);
+  OnlineSoftmax<RowsPerThread> softmax;
+
+  // ###############  Mainloop  ###############
+
+  const int n_block_min = 0;
+  const int n_block_max = cute::ceil_div(kv_len, BLK_N{});
+
+  // clear output
+  clear(tOrAccO);
+  CUTE_NO_UNROLL
+  for (int ni = n_block_min; ni < n_block_max; ++ni) {
+    // clear attention score for each block
+    clear(tSrAccS);
+
+    // wait k, queue: [q, k] => []
+    cp_async_wait<0>();
+    __syncthreads();
+
+    // produce v, [] => [v]
+    {
+      gV = local_tile(V, make_tile(BLK_N{}, HEAD_DIM{}), make_coord(ni, _));
+      tVgV = gmem_thr_copy_QKV.partition_S(gV(_, _, 0));
+      cute::copy(gmem_tiled_copy_QKV, tVgV, tVsV);
+    }
+    cp_async_fence();
+
+    // 1> S = Q@K.T
+    CUTE_UNROLL
+    for (int ki = 0; ki < size<2>(tSrQ); ++ki) {
+      cute::copy(smem_tiled_copy_Q, tSsQ(_, _, ki), tSrQ_copy_view(_, _, ki));
+      cute::copy(smem_tiled_copy_K, tSsK(_, _, ki), tSrK_copy_view(_, _, ki));
+      cute::gemm(tiled_mma, tSrQ(_, _, ki), tSrK(_, _, ki), tSrAccS);
+    }
+
+    // apply softmax and rescale
+    softmax.rescale(tSrAccS_rc_view, tOrAccO_rc_view);
+
+    // wait v, [v] => []
+    cp_async_wait<0>();
+    __syncthreads();
+
+    // produce next k: [] => [k]
+    if (ni != n_block_max - 1) {
+      gK = local_tile(K, make_tile(BLK_N{}, HEAD_DIM{}), make_coord(ni + 1, _));
+      tKgK = gmem_thr_copy_QKV.partition_S(gK(_, _, 0));
+      cute::copy(gmem_tiled_copy_QKV, tKgK, tKsK);
+    }
+    cp_async_fence();
+
+    // 2> O = softmax(S)*V
+
+    // cast scores from Accumulator to Element
+    auto tSrS = make_tensor_like<Element>(tSrAccS);
+    CUTE_UNROLL
+    for (int i = 0; i < size(tSrAccS); ++i) {
+      tSrS(i) = static_cast<Element>(tSrAccS(i));
+    }
+
+    // convert layout from gemm-I C to gemm-II A
+    auto tOrS = Convertor::to_mma_a(tSrS);
+
+    CUTE_UNROLL
+    for (int ki = 0; ki < size<2>(tOrS); ++ki) {
+      cute::copy(
+          smem_tiled_copy_Vt, tOsVt(_, _, ki), tOrVt_copy_view(_, _, ki));
+      cute::gemm(tiled_mma, tOrS(_, _, ki), tOrVt(_, _, ki), tOrAccO);
+    }
+  }
+
+  // ###############  Epilogue  ###############
+
+  // normalize output: o /= rowsum
+  softmax.finalize(tOrAccO_rc_view);
+
+  // write output to gmem
+  // 1> covernt output from ElementAccumulator to Element
+  auto tOrO = make_tensor_like<Element>(tOrAccO);
+  CUTE_UNROLL
+  for (int si = 0; si < size(tOrAccO); ++si) {
+    tOrO(si) = static_cast<Element>(tOrAccO(si));
+  }
+
+  // 2. copy output from reg to smem
+  auto sO = make_tensor(sQ.data(), SmemLayoutO{});
+
+  SmemTiledCopyO smem_tiled_copy_O;
+  auto smem_thr_copy_O = smem_tiled_copy_O.get_thread_slice(tidx);
+  // ((Atom,AtomNum),MMA_M,MMA_N)
+  auto taccOrO = smem_thr_copy_O.retile_S(tOrO);
+  // ((Atom,AtomNum),PIPE_M,PIPE_N)
+  auto taccOsO = smem_thr_copy_O.partition_D(sO);
+  cute::copy(smem_tiled_copy_O, taccOrO, taccOsO);
+
+  // 3. copy output from smem to gmem
+  GmemTiledCopyO gmem_tiled_copy_O;
+  auto gmem_thr_copy_O = gmem_tiled_copy_O.get_thread_slice(tidx);
+  // ((Atom,AtomNum),ATOM_M,ATOM_N)
+  auto tOsO = gmem_thr_copy_O.partition_S(sO);
+  auto tOgO = gmem_thr_copy_O.partition_D(gO(_, _, 0));
+
+  // wait for smem copy before copy to gmem
+  __syncthreads();
+  cute::copy(gmem_tiled_copy_O, tOsO, tOgO);
+}
+
+}  // namespace llm
Original file line number	Diff line number	Diff line change
`@@ -91,7 +91,7 @@ inline void mha(torch::Tensor query,`
`91`	`91`	`}`
`92`	`92`	`// apply causal mask`
`93`	`93`	`if (kv_idx_base + j > q_idx_base + q_idx) {`
`94`		`- s(j) = -INFINITY;`
	`94`	`+ s(j) = -5e4;`
`95`	`95`	`}`
`96`	`96`	`max = std::max(max, s(j));`
`97`	`97`	`}`