Compute Library v23.11

ARM-software · Nov 21, 2023 · add70ac · add70ac
1 parent 874e0c7
commit add70ac
Show file tree

Hide file tree

Showing 2,083 changed files with 93,476 additions and 67,512 deletions.
diff --git a/Android.bp b/Android.bp
@@ -28,12 +28,6 @@ opencl_srcs = [
         "src/core/CL/cl_kernels/common/elementwise_operation_quantized.cl",
         "src/core/CL/cl_kernels/common/elementwise_unary.cl",
         "src/core/CL/cl_kernels/common/elementwise_unary_quantized.cl",
-        "src/core/CL/cl_kernels/common/experimental/gemm_fused_post_ops/act_eltwise_op_act/fp_post_ops_act_eltwise_op_act.h",
-        "src/core/CL/cl_kernels/common/experimental/gemm_fused_post_ops/act_eltwise_op_act/gemm_mm_native.cl",
-        "src/core/CL/cl_kernels/common/experimental/gemm_fused_post_ops/act_eltwise_op_act/gemm_mm_reshaped.cl",
-        "src/core/CL/cl_kernels/common/experimental/gemm_fused_post_ops/act_eltwise_op_act/gemm_mm_reshaped_only_rhs.cl",
-        "src/core/CL/cl_kernels/common/experimental/gemm_fused_post_ops/fp_elementwise_op_helpers.h",
-        "src/core/CL/cl_kernels/common/experimental/gemm_fused_post_ops/fp_mixed_precision_helpers.h",
         "src/core/CL/cl_kernels/common/fft.cl",
         "src/core/CL/cl_kernels/common/fft_digit_reverse.cl",
         "src/core/CL/cl_kernels/common/fft_scale.cl",
@@ -53,6 +47,7 @@ opencl_srcs = [
         "src/core/CL/cl_kernels/common/mat_mul.cl",
         "src/core/CL/cl_kernels/common/mat_mul_mmul.cl",
         "src/core/CL/cl_kernels/common/mat_mul_quantized.cl",
+        "src/core/CL/cl_kernels/common/mat_mul_quantized_mmul.cl",
         "src/core/CL/cl_kernels/common/mean_stddev_normalization.cl",
         "src/core/CL/cl_kernels/common/memset.cl",
         "src/core/CL/cl_kernels/common/minmax_layer.cl",
@@ -73,7 +68,6 @@ opencl_srcs = [
         "src/core/CL/cl_kernels/common/select.cl",
         "src/core/CL/cl_kernels/common/slice_ops.cl",
         "src/core/CL/cl_kernels/common/softmax_layer.cl",
-        "src/core/CL/cl_kernels/common/softmax_layer_quantized.cl",
         "src/core/CL/cl_kernels/common/stack_layer.cl",
         "src/core/CL/cl_kernels/common/tile.cl",
         "src/core/CL/cl_kernels/common/transpose.cl",
@@ -218,9 +212,12 @@ cc_library_static {
         "src/core/AccessWindowAutoPadding.cpp",
         "src/core/AccessWindowStatic.cpp",
         "src/core/AccessWindowTranspose.cpp",
+        "src/core/CL/CLCommandBuffer.cpp",
+        "src/core/CL/CLCompatCommandBuffer.cpp",
         "src/core/CL/CLCompileContext.cpp",
         "src/core/CL/CLHelpers.cpp",
         "src/core/CL/CLKernelLibrary.cpp",
+        "src/core/CL/CLMutableCommandBuffer.cpp",
         "src/core/CL/CLUtils.cpp",
         "src/core/CL/DefaultLWSHeuristics.cpp",
         "src/core/CL/ICLKernel.cpp",
@@ -396,13 +393,15 @@ cc_library_static {
         "src/core/Validate.cpp",
         "src/core/Version.cpp",
         "src/core/helpers/SoftmaxHelpers.cpp",
+        "src/core/helpers/Utils.cpp",
         "src/core/helpers/WindowHelpers.cpp",
         "src/core/utils/ActivationFunctionUtils.cpp",
         "src/core/utils/AssemblyUtils.cpp",
         "src/core/utils/DataLayoutUtils.cpp",
         "src/core/utils/DataTypeUtils.cpp",
         "src/core/utils/FormatUtils.cpp",
         "src/core/utils/InterpolationPolicyUtils.cpp",
+        "src/core/utils/Math.cpp",
         "src/core/utils/ScaleUtils.cpp",
         "src/core/utils/StringUtils.cpp",
         "src/core/utils/helpers/fft.cpp",
@@ -485,28 +484,28 @@ cc_library_static {
         "src/cpu/kernels/boundingboxtransform/generic/neon/fp32.cpp",
         "src/cpu/kernels/boundingboxtransform/generic/neon/impl.cpp",
         "src/cpu/kernels/boundingboxtransform/generic/neon/qsymm16.cpp",
-        "src/cpu/kernels/cast/generic/neon/bfloat16.cpp",
         "src/cpu/kernels/cast/generic/neon/fp16.cpp",
         "src/cpu/kernels/crop/generic/neon/fp16.cpp",
         "src/cpu/kernels/crop/generic/neon/fp32.cpp",
-        "src/cpu/kernels/crop/generic/neon/impl.cpp",
         "src/cpu/kernels/crop/generic/neon/integer.cpp",
         "src/cpu/kernels/depthwiseconv2d/generic/neon/fp16.cpp",
         "src/cpu/kernels/depthwiseconv2d/generic/neon/fp32.cpp",
         "src/cpu/kernels/depthwiseconv2d/generic/neon/impl.cpp",
         "src/cpu/kernels/depthwiseconv2d/generic/neon/qasymm8.cpp",
         "src/cpu/kernels/depthwiseconv2d/generic/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/directconv2d/nchw/all.cpp",
+        "src/cpu/kernels/directconv2d/nchw/fp16.cpp",
+        "src/cpu/kernels/directconv2d/nhwc/neon/fp16.cpp",
         "src/cpu/kernels/directconv2d/nhwc/neon/fp32.cpp",
         "src/cpu/kernels/directconv2d/nhwc/neon/impl.cpp",
+        "src/cpu/kernels/directconv2d/nhwc/neon/qasymm8.cpp",
         "src/cpu/kernels/elementwise_binary/generic/neon/fp16.cpp",
         "src/cpu/kernels/elementwise_binary/generic/neon/fp32.cpp",
         "src/cpu/kernels/elementwise_binary/generic/neon/integer.cpp",
         "src/cpu/kernels/elementwise_binary/generic/neon/qasymm8.cpp",
         "src/cpu/kernels/elementwise_binary/generic/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/elementwise_unary/generic/neon/fp16.cpp",
         "src/cpu/kernels/elementwise_unary/generic/neon/fp32.cpp",
-        "src/cpu/kernels/elementwise_unary/generic/neon/impl.cpp",
         "src/cpu/kernels/elementwise_unary/generic/neon/integer.cpp",
         "src/cpu/kernels/elementwise_unary/generic/neon/q8.cpp",
         "src/cpu/kernels/elementwise_unary/generic/neon/qasymm8.cpp",
@@ -515,11 +514,9 @@ cc_library_static {
         "src/cpu/kernels/floor/neon/fp32.cpp",
         "src/cpu/kernels/fuse_batch_normalization/generic/fp16.cpp",
         "src/cpu/kernels/fuse_batch_normalization/generic/fp32.cpp",
-        "src/cpu/kernels/fuse_batch_normalization/generic/impl.cpp",
         "src/cpu/kernels/fuse_batch_normalization/nchw/all.cpp",
         "src/cpu/kernels/fuse_batch_normalization/nhwc/neon/fp16.cpp",
         "src/cpu/kernels/fuse_batch_normalization/nhwc/neon/fp32.cpp",
-        "src/cpu/kernels/fuse_batch_normalization/nhwc/neon/impl.cpp",
         "src/cpu/kernels/gemm_matrix_add/generic/neon/fp16.cpp",
         "src/cpu/kernels/gemm_matrix_add/generic/neon/fp32.cpp",
         "src/cpu/kernels/gemm_matrix_add/generic/neon/impl.cpp",
@@ -537,11 +534,9 @@ cc_library_static {
         "src/cpu/kernels/internal/CpuPool2dAssemblyWrapperKernel.cpp",
         "src/cpu/kernels/l2normlayer/generic/neon/fp16.cpp",
         "src/cpu/kernels/l2normlayer/generic/neon/fp32.cpp",
-        "src/cpu/kernels/l2normlayer/generic/neon/impl.cpp",
         "src/cpu/kernels/lut/generic/neon/u8.cpp",
         "src/cpu/kernels/maxunpool/generic/neon/fp16.cpp",
         "src/cpu/kernels/maxunpool/generic/neon/fp32.cpp",
-        "src/cpu/kernels/maxunpool/generic/neon/impl.cpp",
         "src/cpu/kernels/maxunpool/generic/neon/qasymm8.cpp",
         "src/cpu/kernels/maxunpool/generic/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/meanstddevnorm/generic/neon/fp16.cpp",
@@ -555,16 +550,13 @@ cc_library_static {
         "src/cpu/kernels/pool2d/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/pool3d/neon/fp16.cpp",
         "src/cpu/kernels/pool3d/neon/fp32.cpp",
-        "src/cpu/kernels/pool3d/neon/impl.cpp",
         "src/cpu/kernels/pool3d/neon/qasymm8.cpp",
         "src/cpu/kernels/pool3d/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/range/generic/neon/fp16.cpp",
         "src/cpu/kernels/range/generic/neon/fp32.cpp",
-        "src/cpu/kernels/range/generic/neon/impl.cpp",
         "src/cpu/kernels/range/generic/neon/integer.cpp",
         "src/cpu/kernels/roialign/generic/neon/fp16.cpp",
         "src/cpu/kernels/roialign/generic/neon/fp32.cpp",
-        "src/cpu/kernels/roialign/generic/neon/impl.cpp",
         "src/cpu/kernels/roialign/generic/neon/qasymm8.cpp",
         "src/cpu/kernels/roialign/generic/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/scale/neon/fp16.cpp",
@@ -573,13 +565,13 @@ cc_library_static {
         "src/cpu/kernels/scale/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/select/generic/neon/fp16.cpp",
         "src/cpu/kernels/select/generic/neon/fp32.cpp",
-        "src/cpu/kernels/select/generic/neon/impl.cpp",
         "src/cpu/kernels/select/generic/neon/integer.cpp",
         "src/cpu/kernels/softmax/generic/neon/fp16.cpp",
         "src/cpu/kernels/softmax/generic/neon/fp32.cpp",
         "src/cpu/kernels/softmax/generic/neon/impl.cpp",
         "src/cpu/kernels/softmax/generic/neon/qasymm8.cpp",
         "src/cpu/kernels/softmax/generic/neon/qasymm8_signed.cpp",
+        "src/cpu/kernels/sub/neon/fp16.cpp",
         "src/cpu/kernels/sub/neon/qasymm8.cpp",
         "src/cpu/kernels/sub/neon/qasymm8_signed.cpp",
         "src/cpu/kernels/sub/neon/qsymm16.cpp",
@@ -628,6 +620,7 @@ cc_library_static {
         "src/dynamic_fusion/sketch/attributes/ClampAttributes.cpp",
         "src/dynamic_fusion/sketch/attributes/Conv2dAttributes.cpp",
         "src/dynamic_fusion/sketch/attributes/DepthwiseConv2dAttributes.cpp",
+        "src/dynamic_fusion/sketch/attributes/MatMulAttributes.cpp",
         "src/dynamic_fusion/sketch/attributes/Pool2dAttributes.cpp",
         "src/dynamic_fusion/sketch/attributes/ReshapeAttributes.cpp",
         "src/dynamic_fusion/sketch/attributes/ResizeAttributes.cpp",
@@ -647,8 +640,12 @@ cc_library_static {
         "src/dynamic_fusion/sketch/gpu/ckw_driver/GpuCkwVariableTable.cpp",
         "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwActivation.cpp",
         "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwCast.cpp",
+        "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwDepthwiseConv2d.cpp",
         "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwDirectConv2d.cpp",
         "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwElementwiseBinary.cpp",
+        "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwMatMul.cpp",
+        "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwPool2d.cpp",
+        "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwResize.cpp",
         "src/dynamic_fusion/sketch/gpu/ckw_driver/components/GpuCkwStore.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentActivation.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentCast.cpp",
@@ -657,6 +654,7 @@ cc_library_static {
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentElementwiseBinary.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentLogits1DMaxShiftExpSum.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentLogits1DNorm.cpp",
+        "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentMatMul.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentPool2d.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentReshape.cpp",
         "src/dynamic_fusion/sketch/gpu/components/cl/ClComponentResize.cpp",
@@ -666,6 +664,7 @@ cc_library_static {
         "src/dynamic_fusion/sketch/gpu/operators/GpuClamp.cpp",
         "src/dynamic_fusion/sketch/gpu/operators/GpuConv2d.cpp",
         "src/dynamic_fusion/sketch/gpu/operators/GpuDepthwiseConv2d.cpp",
+        "src/dynamic_fusion/sketch/gpu/operators/GpuMatMul.cpp",
         "src/dynamic_fusion/sketch/gpu/operators/GpuMul.cpp",
         "src/dynamic_fusion/sketch/gpu/operators/GpuOutput.cpp",
         "src/dynamic_fusion/sketch/gpu/operators/GpuPool2d.cpp",
@@ -729,6 +728,7 @@ cc_library_static {
         "src/gpu/cl/kernels/ClIndirectConv2dAddressPrecalculationKernel.cpp",
         "src/gpu/cl/kernels/ClIndirectConv2dKernel.cpp",
         "src/gpu/cl/kernels/ClMatMulLowpNativeKernel.cpp",
+        "src/gpu/cl/kernels/ClMatMulLowpNativeMMULKernel.cpp",
         "src/gpu/cl/kernels/ClMatMulNativeKernel.cpp",
         "src/gpu/cl/kernels/ClMatMulNativeMMULKernel.cpp",
         "src/gpu/cl/kernels/ClMulKernel.cpp",
@@ -756,6 +756,7 @@ cc_library_static {
         "src/gpu/cl/kernels/gemm/reshaped/ClGemmDefaultConfigReshapedValhall.cpp",
         "src/gpu/cl/kernels/gemm/reshaped_only_rhs/ClGemmDefaultConfigReshapedRhsOnlyBifrost.cpp",
         "src/gpu/cl/kernels/gemm/reshaped_only_rhs/ClGemmDefaultConfigReshapedRhsOnlyValhall.cpp",
+        "src/gpu/cl/kernels/helpers/MatMulKernelHelpers.cpp",
         "src/gpu/cl/operators/ClActivation.cpp",
         "src/gpu/cl/operators/ClAdd.cpp",
         "src/gpu/cl/operators/ClCast.cpp",
@@ -1310,6 +1311,7 @@ cc_library_static {
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_smallK_hybrid_u8u32_dot_8x4/a55.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_smallK_hybrid_u8u32_dot_8x4/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sme2_gemv_bf16fp32_dot_16VL/generic.cpp",
+                "src/core/NEON/kernels/arm_gemm/kernels/sme2_gemv_fp16fp32fp16_dot_16VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sme2_gemv_fp32_mla_16VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sme2_gemv_fp32bf16fp32_dot_16VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sme2_gemv_s8qa_dot_16VL/generic.cpp",

diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -28,7 +28,7 @@ cmake_minimum_required(VERSION 3.13 FATAL_ERROR)
 list(APPEND CMAKE_MESSAGE_CONTEXT ArmCompute)
 project(
   ArmCompute
-  VERSION 32.0.0
+  VERSION 33.0.0
   DESCRIPTION
     "The Arm Compute Library is a collection of low-level machine learning functions optimized for Arm® Cortex®-A CPU and Arm® Mali™ GPU architectures"
   LANGUAGES C CXX ASM)