rapidsai · rapids-bot · Oct 10, 2023 · Sep 22, 2023 · Sep 22, 2023 · Sep 27, 2023
@@ -20,17 +20,19 @@
 #include <cudf/column/column_factories.hpp>
 #include <cudf/table/table.hpp>
 #include <cudf/transpose.hpp>
+#include <cudf/types.hpp>
 
 #include <thrust/iterator/counting_iterator.h>
 #include <thrust/iterator/transform_iterator.h>
 
 static void BM_transpose(benchmark::State& state)
 {
   auto count = state.range(0);
+  constexpr auto column_type = cudf::data_type{cudf::type_id::INT32};
   auto int_column_generator =
     thrust::make_transform_iterator(thrust::counting_iterator(0), [count](int i) {
       return cudf::make_numeric_column(
-        cudf::data_type{cudf::type_id::INT32}, count, cudf::mask_state::ALL_VALID);
+        column_type, count, cudf::mask_state::ALL_VALID);
     });
 
   auto input_table = cudf::table(std::vector(int_column_generator, int_column_generator + count));
@@ -40,16 +42,29 @@ static void BM_transpose(benchmark::State& state)
     cuda_event_timer raii(state, true);
     auto output = cudf::transpose(input);
   }
+
+  // Collect memory statistics.
+  auto const bytes_read    = input.num_columns() * input.num_rows() * cudf::size_of(column_type);
+  auto const bytes_written = bytes_read;
+  // Account for nullability in input and output.
+  auto const null_bytes =
+    2 * input.num_columns() * cudf::bitmask_allocation_size_bytes(input.num_rows());
-    2 * input.num_columns() * cudf::bitmask_allocation_size_bytes(input.num_rows());
+    2 * static_cast<uint64_t>(input.num_columns()) * cudf::bitmask_allocation_size_bytes(input.num_rows());
-    2 * input.num_columns() * cudf::bitmask_allocation_size_bytes(input.num_rows());
+    2 * static_cast<uint64_t>(input.num_columns()) * cudf::bitmask_allocation_size_bytes(input.num_rows());
+
+  state.SetBytesProcessed(static_cast<int64_t>(state.iterations()) *
+                          (bytes_read + bytes_written + null_bytes));
 }
 
 class Transpose : public cudf::benchmark {};
 
-#define TRANSPOSE_BM_BENCHMARK_DEFINE(name)                                                \
-  BENCHMARK_DEFINE_F(Transpose, name)(::benchmark::State & state) { BM_transpose(state); } \
-  BENCHMARK_REGISTER_F(Transpose, name)                                                    \
-    ->RangeMultiplier(4)                                                                   \
-    ->Range(4, 4 << 13)                                                                    \
-    ->UseManualTime()                                                                      \
+#define TRANSPOSE_BM_BENCHMARK_DEFINE(name)                       \
+  BENCHMARK_DEFINE_F(Transpose, name)(::benchmark::State & state) \
+  {                                                               \
+    BM_transpose(state);                                          \
+  }                                                               \
+  BENCHMARK_REGISTER_F(Transpose, name)                           \
+    ->RangeMultiplier(4)                                          \
+    ->Range(4, 4 << 13)                                           \
+    ->UseManualTime()                                             \
     ->Unit(benchmark::kMillisecond);
 
 TRANSPOSE_BM_BENCHMARK_DEFINE(transpose_simple);