support more epilogue classes

intel · May 8, 2024 · c3d9073 · c3d9073
1 parent 7d49516
commit c3d9073
Show file tree

Hide file tree

Showing 3 changed files with 18 additions and 24 deletions.
diff --git a/bestla/bestla/bestla_wrapper.h b/bestla/bestla/bestla_wrapper.h
@@ -191,31 +191,26 @@ class LauncherBase {
         int n = _param.problem.dims[2];
         int k = _param.problem.dims[3];
         int kblocksize = _param.problem.dims[4];
-        auto Cptr = _param.paramC.C + _config.loc[1];
         SNbits::template updateBNStep<ScaleT>(paramB, _config.loc[1]);
         int size_padded = utils::padto_le(_config.size[1], GemmCore::NTILE);
         int in = 0;
         for (; in < size_padded; in += GemmCore::NTILE) {
           if constexpr (std::is_same_v<AType, float>) {
             kernel::wrapper::GEMVWoqNBits::forward_fp32_fp32<_RT_ISA_T, ScaleT, GemmCore::NTILE, MTILE>(
-                Aptr, _param.paramA.lda, paramB, Cptr, _param.paramC.ldc, k, kblocksize, StackTmp, TmpSize);
+                Aptr, _param.paramA.lda, paramB, tmpc_ptr, GemmCore::NTILE, k, kblocksize, StackTmp, TmpSize);
           }
-
-          Cptr += GemmCore::NTILE;
+          Epilogue::forward(tmpc_ptr, GemmCore::NTILE, 0, _config.loc[1] + in, MTILE, GemmCore::NTILE, _param.paramC,
+                            StackTmp, TmpSize);
           SNbits::template updateBNStep<ScaleT>(paramB, GemmCore::NTILE);
         }
         if (size_padded != _config.size[1]) {
           if constexpr (std::is_same_v<AType, float>) {
             kernel::wrapper::GEMVWoqNBits::forward_fp32_fp32<_RT_ISA_T, ScaleT, GemmCore::NTILE, MTILE>(
                 Aptr, _param.paramA.lda, paramB, tmpc_ptr, GemmCore::NTILE, k, kblocksize, StackTmp, TmpSize);
           }
-          for (int i = 0; i < MTILE; i++) {
-            memcpy(Cptr + i * _param.paramC.ldc, tmpc_ptr + i * GemmCore::NTILE,
-                   (_config.size[1] - in) * sizeof(CType));
-          }
+          Epilogue::forward(tmpc_ptr, GemmCore::NTILE, 0, _config.loc[1] + in, MTILE, (_config.size[1] - in),
+                            _param.paramC, StackTmp, TmpSize);
         }
-        Epilogue::forward(_param.paramC.C + _config.loc[1], _param.paramC.ldc, 0, _config.loc[1], MTILE,
-                          _config.size[1], _param.paramC, StackTmp, TmpSize);
       }
     }
 
@@ -448,20 +443,19 @@ class LauncherIntKBlock {
         int n = _param.problem.dims[2];
         int k = _param.problem.dims[3];
         int kblocksize = _param.problem.dims[4];
-        auto Cptr = _param.paramC.C + _config.loc[1];
         SNbits::template updateBNStep<ScaleT>(paramB, _config.loc[1]);
         int size_padded = utils::padto_le(_config.size[1], GemmCore::NTILE);
         int in = 0;
         for (; in < size_padded; in += GemmCore::NTILE) {
           if constexpr (std::is_same_v<AType, uint8_t>) {
             kernel::wrapper::GEMVWoqNBits::forward_u8s8_fp32<_RT_ISA_T, ScaleT, GemmCore::NTILE, MTILE>(
-                paramA, paramB, Cptr, _param.paramC.ldc, k, kblocksize, StackTmp, TmpSize);
+                paramA, paramB, tmpc_ptr, GemmCore::NTILE, k, kblocksize, StackTmp, TmpSize);
           } else if constexpr (std::is_same_v<AType, int8_t>) {
             kernel::wrapper::GEMVWoqNBits::forward_s8s8_fp32<_RT_ISA_T, ScaleT, GemmCore::NTILE, MTILE>(
-                paramA, paramB, Cptr, _param.paramC.ldc, k, kblocksize, StackTmp, TmpSize);
+                paramA, paramB, tmpc_ptr, GemmCore::NTILE, k, kblocksize, StackTmp, TmpSize);
           }
-
-          Cptr += GemmCore::NTILE;
+          Epilogue::forward(tmpc_ptr, GemmCore::NTILE, 0, _config.loc[1] + in, MTILE, GemmCore::NTILE, _param.paramC,
+                            StackTmp, TmpSize);
           SNbits::template updateBNStep<ScaleT>(paramB, GemmCore::NTILE);
         }
         if (size_padded != _config.size[1]) {
@@ -472,13 +466,9 @@ class LauncherIntKBlock {
             kernel::wrapper::GEMVWoqNBits::forward_s8s8_fp32<_RT_ISA_T, ScaleT, GemmCore::NTILE, MTILE>(
                 paramA, paramB, tmpc_ptr, GemmCore::NTILE, k, kblocksize, StackTmp, TmpSize);
           }
-          for (int i = 0; i < MTILE; i++) {
-            memcpy(Cptr + i * _param.paramC.ldc, tmpc_ptr + i * GemmCore::NTILE,
-                   (_config.size[1] - in) * sizeof(CType));
-          }
+          Epilogue::forward(tmpc_ptr, GemmCore::NTILE, 0, _config.loc[1] + in, MTILE, (_config.size[1] - in),
+                            _param.paramC, StackTmp, TmpSize);
         }
-        Epilogue::forward(_param.paramC.C + _config.loc[1], _param.paramC.ldc, 0, _config.loc[1], MTILE,
-                          _config.size[1], _param.paramC, StackTmp, TmpSize);
       }
     }
 

diff --git a/bestla/bestla/ut/bestla_benchmark.cpp b/bestla/bestla/ut/bestla_benchmark.cpp
@@ -1,8 +1,7 @@
 #include <stdio.h>
 #include "bestla_wrapper.h"
 #include "bestla_ut.h"
-#undef BTLA_UT_WRAPPER
-#undef BTLA_UT_PROLOGUE_B
+
 namespace bestla {
 using namespace utils;
 namespace ut {
@@ -747,6 +746,9 @@ class UTWOQ_CompInt8 {
     int blks = k / blocksize;
     int nbits = utils::bestla_dtype_bits(qtype);
     auto memsize = (size_t)(n * k * nbits / 8 + n * blks * sizeof(Scale_T)) + (m * k + m * n) * sizeof(float);
+    if (isasym) {
+      memsize += n * blks * sizeof(int8_t);
+    }
     tm.start();
     while (tm.stop() < timems) {
       for (int i = 0; i < batch; i++) {
@@ -808,8 +810,8 @@ class UTWOQ_CompInt8 {
   }
 };
 #ifdef BTLA_UT_PROLOGUE_B
-#endif
 static UTWOQ_CompInt8 sUTWOQ_CompInt8;
+#endif
 
 #if 0
 typedef struct {

diff --git a/bestla/bestla/ut/kernel_wrapper.cpp b/bestla/bestla/ut/kernel_wrapper.cpp
@@ -93,6 +93,7 @@ class UT_PaddingInterleaveMN {
   UT_PaddingInterleaveMN() {
     UT_START();
     // ut<48, 2, bf16, bf16>(128, 128, 2);  // TO IMPLEMENT
+    CheckISA(AVX512_FP16);
     ut<32, 2, fp16, bf16>(128, 128, 2);
   }
   template <int NTile, int RowPack, typename T_SRC, typename T_DST>
@@ -120,6 +121,7 @@ class UT_PaddingTransInterleaveMN {
  public:
   UT_PaddingTransInterleaveMN() {
     UT_START();
+    CheckISA(AVX512_FP16);
     // ut<48, 2, bf16, bf16>(128, 128, 2);  // TO IMPLEMENT
     ut<32, 2, fp16, bf16>(128, 128, 2);
   }