Add files via upload

dedoogong · May 1, 2018 · 17618a9 · 17618a9
1 parent f139a98
commit 17618a9
Show file tree

Hide file tree

Showing 14 changed files with 1,641 additions and 0 deletions.
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -0,0 +1,34 @@
+cmake_minimum_required (VERSION 2.6)
+project (cudnn-training)
+
+find_package(CUDA 6.5 REQUIRED)
+
+
+if (CMAKE_BUILD_TYPE STREQUAL "Debug")
+  message("Debug mode")
+  set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_52,code=sm_52;-gencode;arch=compute_50,code=compute_50;-std=c++11;-g;-lineinfo;-Xcompiler;-ggdb)
+else()
+  set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_52,code=sm_52;-gencode;arch=compute_50,code=compute_50;-std=c++11;-O3;-DNDEBUG;-Xcompiler;-DNDEBUG)
+endif()
+
+set(CUDA_PROPAGATE_HOST_FLAGS OFF)
+
+set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11")
+
+if(USE_GFLAGS)
+  add_definitions(-DUSE_GFLAGS)
+endif()
+
+include_directories($ENV{CUDNN_PATH} $ENV{CUDNN_PATH}/include)
+link_directories($ENV{CUDNN_PATH} $ENV{CUDNN_PATH}/lib $ENV{CUDNN_PATH}/lib64)
+
+cuda_add_executable(trainlenet lenet.cu readubyte.cpp)
+cuda_add_cublas_to_target(trainlenet)
+
+if(USE_GFLAGS)
+  target_link_libraries(trainlenet gflags cudnn)
+else()
+  target_link_libraries(trainlenet cudnn)
+endif()
+
+
diff --git a/Makefile b/Makefile
@@ -0,0 +1,17 @@
+CXX := nvcc
+TARGET := cudnn_conv_test
+CUDNN_PATH := cudnn
+HEADERS := -I $(CUDNN_PATH)/include
+LIBS := -L $(CUDNN_PATH)/lib64 -L/usr/local/lib
+CXXFLAGS := -gencode=arch=compute_52,code=sm_52 -gencode=arch=compute_61,code=sm_61 -std=c++11 -O2
+
+all: conv
+
+conv: $(TARGET).cu
+	$(CXX) $(CXXFLAGS) $(HEADERS) $(LIBS) $(TARGET).cu -o $(TARGET) \
+	-lcudnn -lopencv_imgcodecs -lopencv_imgproc -lopencv_core
+
+.phony: clean
+
+clean:
+	rm $(TARGET) || echo -n ""
diff --git a/cudnn-out.png b/cudnn-out.png
diff --git a/cudnn_conv_test b/cudnn_conv_test
diff --git a/cudnn_conv_test.cu b/cudnn_conv_test.cu
@@ -0,0 +1,226 @@
+#include <cudnn.h>
+#include <cassert>
+#include <cstdlib>
+#include <iostream>
+#include <opencv2/opencv.hpp>
+
+#define checkCUDNN(expression)                               \
+  {                                                          \
+    cudnnStatus_t status = (expression);                     \
+    if (status != CUDNN_STATUS_SUCCESS) {                    \
+      std::cerr << "Error on line " << __LINE__ << ": "      \
+                << cudnnGetErrorString(status) << std::endl; \
+      std::exit(EXIT_FAILURE);                               \
+    }                                                        \
+  }
+
+cv::Mat load_image(const char* image_path) {
+  cv::Mat image = cv::imread(image_path, CV_LOAD_IMAGE_COLOR);
+  image.convertTo(image, CV_32FC3);
+  cv::normalize(image, image, 0, 1, cv::NORM_MINMAX);
+  std::cerr << "Input Image: " << image.rows << " x " << image.cols << " x "
+            << image.channels() << std::endl;
+  return image;
+}
+
+void save_image(const char* output_filename,
+                float* buffer,
+                int height,
+                int width) {
+  cv::Mat output_image(height, width, CV_32FC3, buffer);
+  // Make negative values zero.
+  cv::threshold(output_image,
+                output_image,
+                /*threshold=*/0,
+                /*maxval=*/0,
+                cv::THRESH_TOZERO);
+  cv::normalize(output_image, output_image, 0.0, 255.0, cv::NORM_MINMAX);
+  output_image.convertTo(output_image, CV_8UC3);
+  cv::imwrite(output_filename, output_image);
+  std::cerr << "Wrote output to " << output_filename << std::endl;
+}
+
+int main(int argc, const char* argv[]) {
+  if (argc < 2) {
+    std::cerr << "usage: conv <image> [gpu=0] [sigmoid=0]" << std::endl;
+    std::exit(EXIT_FAILURE);
+  }
+
+  int gpu_id = (argc > 2) ? std::atoi(argv[2]) : 0;
+  std::cerr << "GPU: " << gpu_id << std::endl;
+
+  bool with_sigmoid = (argc > 3) ? std::atoi(argv[3]) : 0;
+  std::cerr << "With sigmoid: " << std::boolalpha << with_sigmoid << std::endl;
+
+  cv::Mat image = load_image(argv[1]);
+
+  cudaSetDevice(gpu_id);
+
+  cudnnHandle_t cudnn;
+  cudnnCreate(&cudnn);
+
+  cudnnTensorDescriptor_t input_descriptor;
+  checkCUDNN(cudnnCreateTensorDescriptor(&input_descriptor));
+  checkCUDNN(cudnnSetTensor4dDescriptor(input_descriptor,
+                                        /*format=*/CUDNN_TENSOR_NHWC,
+                                        /*dataType=*/CUDNN_DATA_FLOAT,
+                                        /*batch_size=*/1,
+                                        /*channels=*/3,
+                                        /*image_height=*/image.rows,
+                                        /*image_width=*/image.cols));
+
+  cudnnFilterDescriptor_t kernel_descriptor;
+  checkCUDNN(cudnnCreateFilterDescriptor(&kernel_descriptor));
+  checkCUDNN(cudnnSetFilter4dDescriptor(kernel_descriptor,
+                                        /*dataType=*/CUDNN_DATA_FLOAT,
+                                        /*format=*/CUDNN_TENSOR_NCHW,
+                                        /*out_channels=*/3,
+                                        /*in_channels=*/3,
+                                        /*kernel_height=*/3,
+                                        /*kernel_width=*/3));
+
+  cudnnConvolutionDescriptor_t convolution_descriptor;
+  checkCUDNN(cudnnCreateConvolutionDescriptor(&convolution_descriptor));
+  checkCUDNN(cudnnSetConvolution2dDescriptor(convolution_descriptor,
+                                             /*pad_height=*/1,
+                                             /*pad_width=*/1,
+                                             /*vertical_stride=*/1,
+                                             /*horizontal_stride=*/1,
+                                             /*dilation_height=*/1,
+                                             /*dilation_width=*/1,
+                                             /*mode=*/CUDNN_CROSS_CORRELATION,
+                                             /*computeType=*/CUDNN_DATA_FLOAT));
+
+  int batch_size{0}, channels{0}, height{0}, width{0};
+  checkCUDNN(cudnnGetConvolution2dForwardOutputDim(convolution_descriptor,
+                                                   input_descriptor,
+                                                   kernel_descriptor,
+                                                   &batch_size,
+                                                   &channels,
+                                                   &height,
+                                                   &width));
+
+  std::cerr << "Output Image: " << height << " x " << width << " x " << channels
+            << std::endl;
+
+  cudnnTensorDescriptor_t output_descriptor;
+  checkCUDNN(cudnnCreateTensorDescriptor(&output_descriptor));
+  checkCUDNN(cudnnSetTensor4dDescriptor(output_descriptor,
+                                        /*format=*/CUDNN_TENSOR_NHWC,
+                                        /*dataType=*/CUDNN_DATA_FLOAT,
+                                        /*batch_size=*/1,
+                                        /*channels=*/3,
+                                        /*image_height=*/image.rows,
+                                        /*image_width=*/image.cols));
+
+  cudnnConvolutionFwdAlgo_t convolution_algorithm;
+  checkCUDNN(
+      cudnnGetConvolutionForwardAlgorithm(cudnn,
+                                          input_descriptor,
+                                          kernel_descriptor,
+                                          convolution_descriptor,
+                                          output_descriptor,
+                                          CUDNN_CONVOLUTION_FWD_PREFER_FASTEST,
+                                          /*memoryLimitInBytes=*/0,
+                                          &convolution_algorithm));
+
+  size_t workspace_bytes{0};
+  checkCUDNN(cudnnGetConvolutionForwardWorkspaceSize(cudnn,
+                                                     input_descriptor,
+                                                     kernel_descriptor,
+                                                     convolution_descriptor,
+                                                     output_descriptor,
+                                                     convolution_algorithm,
+                                                     &workspace_bytes));
+  std::cerr << "Workspace size: " << (workspace_bytes / 1048576.0) << "MB"
+            << std::endl;
+  assert(workspace_bytes > 0);
+
+  void* d_workspace{nullptr};
+  cudaMalloc(&d_workspace, workspace_bytes);
+
+  int image_bytes = batch_size * channels * height * width * sizeof(float);
+
+  float* d_input{nullptr};
+  cudaMalloc(&d_input, image_bytes);
+  cudaMemcpy(d_input, image.ptr<float>(0), image_bytes, cudaMemcpyHostToDevice);
+
+  float* d_output{nullptr};
+  cudaMalloc(&d_output, image_bytes);
+  cudaMemset(d_output, 0, image_bytes);
+
+  // clang-format off
+  const float kernel_template[3][3] = {
+    {1, 1, 1},
+    {1, -8, 1},
+    {1, 1, 1}
+  };
+  // clang-format on
+
+  float h_kernel[3][3][3][3];
+  for (int kernel = 0; kernel < 3; ++kernel) {
+    for (int channel = 0; channel < 3; ++channel) {
+      for (int row = 0; row < 3; ++row) {
+        for (int column = 0; column < 3; ++column) {
+          h_kernel[kernel][channel][row][column] = kernel_template[row][column];
+        }
+      }
+    }
+  }
+
+  float* d_kernel{nullptr};
+  cudaMalloc(&d_kernel, sizeof(h_kernel));
+  cudaMemcpy(d_kernel, h_kernel, sizeof(h_kernel), cudaMemcpyHostToDevice);
+
+  const float alpha = 1.0f, beta = 0.0f;
+
+  checkCUDNN(cudnnConvolutionForward(cudnn,
+                                     &alpha,
+                                     input_descriptor,
+                                     d_input,
+                                     kernel_descriptor,
+                                     d_kernel,
+                                     convolution_descriptor,
+                                     convolution_algorithm,
+                                     d_workspace,
+                                     workspace_bytes,
+                                     &beta,
+                                     output_descriptor,
+                                     d_output));
+
+  if (with_sigmoid) {
+    cudnnActivationDescriptor_t activation_descriptor;
+    checkCUDNN(cudnnCreateActivationDescriptor(&activation_descriptor));
+    checkCUDNN(cudnnSetActivationDescriptor(activation_descriptor,
+                                            CUDNN_ACTIVATION_SIGMOID,
+                                            CUDNN_PROPAGATE_NAN,
+                                            /*relu_coef=*/0));
+    checkCUDNN(cudnnActivationForward(cudnn,
+                                      activation_descriptor,
+                                      &alpha,
+                                      output_descriptor,
+                                      d_output,
+                                      &beta,
+                                      output_descriptor,
+                                      d_output));
+    cudnnDestroyActivationDescriptor(activation_descriptor);
+  }
+
+  float* h_output = new float[image_bytes];
+  cudaMemcpy(h_output, d_output, image_bytes, cudaMemcpyDeviceToHost);
+
+  save_image("cudnn-out.png", h_output, height, width);
+
+  delete[] h_output;
+  cudaFree(d_kernel);
+  cudaFree(d_input);
+  cudaFree(d_output);
+  cudaFree(d_workspace);
+
+  cudnnDestroyTensorDescriptor(input_descriptor);
+  cudnnDestroyTensorDescriptor(output_descriptor);
+  cudnnDestroyFilterDescriptor(kernel_descriptor);
+  cudnnDestroyConvolutionDescriptor(convolution_descriptor);
+
+  cudnnDestroy(cudnn);
+}