Feature: Add new operator ml_nms #325

wenzhengyin · 2022-12-13T07:44:28Z

Thanks for your contribution and we appreciate it a lot.

1. Motivation

Add new operator ml_nms

2. Modification

Code to add a new operator
Add file
bangc-ops\kernels\ml_nms\ml_nms.cpp
bangc-ops\kernels\ml_nms\ml_nms.mlu
bangc-ops\kernels\ml_nms\ml_nms.h
bangc-ops\test\mlu_op_gtest\pb_gtest\src\zoo\ml_nms\ml_nms.cpp
bangc-ops\test\mlu_op_gtest\pb_gtest\src\zoo\ml_nms\ml_nms.h
bangc-ops\test\mlu_op_gtest\pb_gtest\src\zoo\ml_nms\test_case\case_0.prototxt
Update file
bangc-ops\mlu_op.h
bangc-ops\mlu_op_kernel.h
bangc-ops\test\mlu_op_gtest\pb_gtest\mlu_op_test_proto\mlu_op_test.proto

3. Test Report

If you want to know how to do operator testing, you can see GTest-User-Guide-zh.

3.1 Modification Details

3.1.1 Accuracy Acceptance Standard

For static threshold standard details, see: MLU-OPS Accuracy Acceptance Standard.

diff1, diff1 <= 0
diff2, diff2 <= 0

3.1.2 Operator Scheme checklist

No.	Details	Check Results
1	Supported hardware	MLU270 MLU290 MLU370
2	Job types	block U1 U4
3	Layouts	NCHW
4	Whether multi-dimensions are supported	yes
5	Whether element zero is supported	yes
6	Data type(half/float)	half / float
7	Whether there is size limit	no

3.1.3 New Feature Test

If you have checked the following items, please tick the relevant box.

[yes ] Data type test
[yes ] Multidimensional tensor test
[yes ] Layout test
[yes ] Different size/integer remainder end segment/alignment misalignment test
[yes ] Zero dimensional tensor test/zero element test
[yes ] stability test
[no ] Multiple platform test
[no ] Gen_case module test
[no ] Nan/INF tests
[yes ] Bug fix tests
[no ] For memory leak check details, seeGTest-User-Guide-zh.
[no ] For code coverage check details, see: GTest-User-Guide-zh.
[no ] For I/O calculation efficiency check details, see: MLU-OPS Performance Acceptance Standard.

3.1.4 Parameter Check

When a new operator is submitted, the test points are given and the test results are stated.

Test Point	Acceptance Standard	Test Result (Error Message)
Whether it conforms to the operator restriction	Normal error
Whether illegal parameters are passed	Normal error

3.2 Performance Test

See MLU-OPS Performance Acceptance Standard for details.

Platform ：MLU270

Operator	Mlu_hardware_time(us)	Mlu_interface_time(us)	Mlu_io_efficiency	Mlu_compute_efficiency	Mlu_workwpace_size(Bytes)	Data_type	Shape
op_name
op_name

Platform ：MLU290

Operator	Mlu_hardware_time(us)	Mlu_interface_time(us)	Mlu_io_efficiency	Mlu_compute_efficiency	Mlu_workwpace_size(Bytes)	Data_type	Shape
op_name
op_name

Platform：MLU370

Operator	Mlu_hardware_time(us)	Mlu_interface_time(us)	Mlu_io_efficiency	Mlu_compute_efficiency	Mlu_workwpace_size(Bytes)	Data_type	Shape
op_name
op_name

3.3 Summary Analysis

Please give a brief overview here, if you want to note and summarize the content.

Add files via upload

defei-coder · 2023-01-03T03:01:58Z

bangc-ops/kernels/ml_nms/ml_nms.cpp

+  return false;
+}
+
+mluOpStatus_t MlNmsParamCheck(


Suggested change

mluOpStatus_t MlNmsParamCheck(

mluOpStatus_t mlNmsParamCheck(

defei-coder · 2023-01-03T03:31:03Z

bangc-ops/mlu_op_kernel.h

@@ -25,6 +25,7 @@

 #include <stdint.h>
 #include "cnrt.h"
+#include "mlu_op.h"


需要包含该头文件吗？

需要mlu_op.h中的结构体

因为mluOpDataType_t的使用才包含的mlu_op.h，实际上mluOpKernelMlNmsFloatFast中的Float已经指明了数据类型，这个参数可以删除。

defei-coder · 2023-01-03T03:35:35Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+}
+
+__mlu_func__ void getSegNumMlNmsFast(int input_boxes_num, int* seg) {
+  if (taskDim > 1) {


因为使用的是U1任务，这里taskDim一定会大于1。建议将该判断去除，默认使用taskDim > 1时的计算。

为后续block任务预留

如果taskDim = 1，uint32_t((input_boxes_num % taskDim) > taskId)结果为0，此时*seg通过(input_boxes_num / taskDim) + uint32_t((input_boxes_num % taskDim) > taskId)得到的值和input_boxes_num相同。

defei-coder · 2023-01-03T06:32:23Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+  __nram__ char worke_space[MAX_NRAM_SIZE / 16];
+  __memcpy((T*)worke_space,
+           boxes_data_ptr + (offset * 4),
+           seg * 4 * sizeof(T),


seg是通过所有box的个数在taskDim上进行拆分得到的，这里考虑不严谨（不应该认为计算得到的seg数量能够完全保存在nram上），这里实际需要的是片上单次处理的数据量，应该和内存大小相关。

bangc-ops/test/mlu_op_gtest/pb_gtest/src/zoo/ml_nms/test_case/case_0.prototxt

defei-coder · 2023-02-10T02:46:12Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+#include "mlu_op_kernel.h"
+#include "kernels/kernel.h"
+
+#define NRAM_SIZE 2 * 1024


这个宏没有被使用

defei-coder · 2023-03-29T02:50:27Z

bangc-ops/kernels/ml_nms/ml_nms.cpp

+    if (boxes_data_ptr_desc->dtype == MLUOP_DTYPE_HALF) {
+      mluOpFuncKernel = mluOpKernelMlNmsHalfFast;
+      apply_nram_size = (input_boxes_num * 6 * 2) + (input_boxes_num * 14 * 2);
+    } else {
+      mluOpFuncKernel = mluOpKernelMlNmsFloatFast;
+      apply_nram_size = (input_boxes_num * 6 * 4) + (input_boxes_num * 14 * 4);
+    }
+    if (apply_nram_size > MAX_NRAM_SIZE) {
+      if ((apply_nram_size % MAX_NRAM_SIZE) !=0) {
+        loop_num = (apply_nram_size / MAX_NRAM_SIZE) + 1;
+      } else  {
+        loop_num = apply_nram_size / MAX_NRAM_SIZE;
+      }
+    }
+    if (loop_num > 0) {


这部分循环放在 kernel 内（mluOpFuncKernel）处理更合适，减少kernl launch的开销

defei-coder · 2023-03-29T06:12:49Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+__mlu_device__ void unionImple(T* boxes_data_ptr,
+  T nms_thres, int offset, int seg, int input_boxes_num,
+  int boxes_start_position, uint8_t* output_boxes_index) {
+  __nram__ char worke_space[MAX_NRAM_SIZE / 16];


Suggested change

__nram__ char worke_space[MAX_NRAM_SIZE / 16];

__nram__ char work_space[MAX_NRAM_SIZE / 16];

defei-coder · 2023-03-29T06:19:29Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+  x1 = worke_space + data_len;
+  y1 = worke_space + (data_len + compute_len);
+  x2 = worke_space + (data_len + (compute_len * 2));
+  y2 = worke_space + (data_len + (compute_len * 3));


Suggested change

x1 = worke_space + data_len;

y1 = worke_space + (data_len + compute_len);

x2 = worke_space + (data_len + (compute_len * 2));

y2 = worke_space + (data_len + (compute_len * 3));

x1 = worke_space + data_len;

y1 = x1 + compute_len;

x2 = y1 + compute_len;

y2 = x2 + compute_len;

defei-coder · 2023-03-29T06:29:49Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+    result = (uint8_t*)worke_space + ((data_len + (compute_len * 8)) *
+                                         (sizeof(T) / sizeof(uint8_t)) + seg);
+  }
+  for (i = 0, j = 0; i < seg * 6; i+=6, j++) {


Suggested change

for (i = 0, j = 0; i < seg * 6; i+=6, j++) {

for (i = 0, j = 0; i < seg * 6; i += 6, j++) {

defei-coder · 2023-03-29T06:47:34Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+  __bang_sub(h, y1, y2, compute_len);
+  __bang_sub(w, x2, x1, compute_len);
+  __bang_mul(area_ptr, h, w, compute_len);


面积计算公式为：

area = (a[2] - a[0] + 1) * (a[3] - a[1] + 1);

/是否少了 + 1操作？

defei-coder · 2023-03-29T06:49:37Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+
+  // max x1
+  __bang_write_value(scores_max_boxes_ptr, compute_len, scores_max_boxes[0]);
+  __bang_cycle_sub(x1, x1, scores_max_boxes_ptr, compute_len, compute_len);


Suggested change

__bang_cycle_sub(x1, x1, scores_max_boxes_ptr, compute_len, compute_len);

__bang_sub(x1, x1, scores_max_boxes_ptr);

defei-coder · 2023-03-29T07:25:24Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+  __bang_cycle_add(tem, area_ptr, scores_max_boxes_area_ptr,
+    compute_len, compute_len);


Suggested change

__bang_cycle_add(tem, area_ptr, scores_max_boxes_area_ptr,

compute_len, compute_len);

__bang_add(tem, area_ptr, scores_max_boxes_area_ptr);

综合代码来看，tem这块内存并不需要，其他位置可以使用scores_max_boxes_area_ptr进行操作，这里可以将结果保存在area_ptr中。

defei-coder · 2023-03-29T07:47:55Z

bangc-ops/kernels/ml_nms/ml_nms.mlu

+    } else {
+      result[i] = 0;
+    }
+  }


该for循环是否可以使用 bang_mul 处理？

defei-coder · 2023-03-29T07:51:21Z

bangc-ops/test/mlu_op_gtest/pb_gtest/src/zoo/ml_nms/ml_nms.cpp

+  auto output_ptr = parser_->getMetaTensor(1).cpu_ptr;
+  int input_boxes_num = input_desc->dims[0];
+  std::vector<std::vector<float>> boxes_data_ptr;
+  for (int i = 0; i < input_boxes_num * 4; i+=4) {


Suggested change

for (int i = 0; i < input_boxes_num * 4; i+=4) {

for (int i = 0; i < input_boxes_num * 6; i += 6) {

单个box含有6个数据，这里应该修改为6

defei-coder · 2023-03-29T07:52:32Z

bangc-ops/test/mlu_op_gtest/pb_gtest/src/zoo/ml_nms/ml_nms.cpp

+
+  float area1 = abs(box1[0] - box1[2]) * abs(box1[1] - box1[3]);
+  float area2 = abs(box2[0] - box2[2]) * abs(box2[1] - box2[3]);
+  float inter = abs(x1 - x2) * abs(y1 - y2);


没有考虑两个box不相交的情况

defei-coder · 2023-03-29T07:55:20Z

bangc-ops/test/mlu_op_gtest/pb_gtest/src/zoo/ml_nms/ml_nms.cpp

+    boxes_data_ptr.push_back(data_ptr);
+  }
+  for (int i = 0; i < input_boxes_num ; i++) {
+    float iou = iouCompute(boxes_data_ptr[0], boxes_data_ptr[i]);


只需要和第一个box计算交并比就可以了吗？

defei-coder · 2023-03-29T08:00:00Z

@wenzhengyin 有下面几个内容需要确认一下：
1、ml_nms 只需要和第一个box进行相比较吗？根据 iouCompute，看到cpu的计算逻辑是仅和第一个box进行计算。
2、当前的测例无法通过测试；
3、麻烦根据comment进行检查。

wenzhengyin added 30 commits August 12, 2022 14:57

Create test.txt

78ba1b7

Add files via upload

44a4f4f

Add files via upload

11bf820

Merge branch 'Cambricon:master' into master

549175b

Delete unary_op_block.h

5899586

Delete unary_op_union.h

7438d4f

Delete ml_nms.cpp

a2ddcea

Delete ml_nms_block.mlu

ee16a1c

Delete ml_nms_union.mlu

edd4c12

Add files via upload

393e41e

Merge pull request #2 from Jones154/wzy-ml_nms

4a83ca2

Add files via upload

Merge branch 'Cambricon:master' into master

8cda3f6

Merge branch 'Cambricon:master' into master

f83a76a

Merge branch 'Cambricon:master' into master

ad2dfbb

Update mlu_op.h

487b228

Update mlu_op_kernel.h

3ee782a

Update ml_nms.cpp

36c5926

Delete ml_nms_block.mlu

69570d7

Delete ml_nms_union.mlu

c6d90ac

Delete test.txt

ed65307

Create ml_nms.h

394f998

Create ml_nms.mlu

01efa33

Update mlu_op_test.proto

21cd9aa

Create ml_nms.cpp

a355d0e

Create ml_nms.h

6cef39d

Create case_0.prototxt

565840d

Update ml_nms.cpp

f54a8b6

Update ml_nms.cpp

7ba8626

Update ml_nms.cpp

90fa38e

Update mlu_op.h

32191dd

wenzhengyin added 7 commits December 13, 2022 16:15

Update ml_nms.h

d5d6be6

Update mlu_op.h

b826fd2

Create ml_nms.cpp

d5ade70

Update ml_nms.cpp

bffdca6

Update ml_nms.cpp

445333d

Update ml_nms.mlu

be55b03

Delete ml_nms.h

9436e06

defei-coder reviewed Jan 3, 2023

View reviewed changes

defei-coder reviewed Jan 9, 2023

View reviewed changes

bangc-ops/test/mlu_op_gtest/pb_gtest/src/zoo/ml_nms/test_case/case_0.prototxt Outdated Show resolved Hide resolved

wenzhengyin added 4 commits February 3, 2023 14:02

Update mlu_op_kernel.h

1476296

Update ml_nms.cpp

bb457d7

Update ml_nms.mlu

7d0f804

Update case_0.prototxt

512d7b0

defei-coder reviewed Feb 10, 2023

View reviewed changes

defei-coder reviewed Mar 29, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature: Add new operator ml_nms #325

Feature: Add new operator ml_nms #325

wenzhengyin commented Dec 13, 2022 •

edited

Loading

defei-coder Jan 3, 2023

defei-coder Jan 3, 2023

wenzhengyin Feb 3, 2023

defei-coder Feb 10, 2023 •

edited

Loading

defei-coder Jan 3, 2023

wenzhengyin Feb 3, 2023

defei-coder Feb 10, 2023

defei-coder Jan 3, 2023

defei-coder Feb 10, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder Mar 29, 2023

defei-coder commented Mar 29, 2023

	mluOpStatus_t MlNmsParamCheck(
	mluOpStatus_t mlNmsParamCheck(

	__nram__ char worke_space[MAX_NRAM_SIZE / 16];
	__nram__ char work_space[MAX_NRAM_SIZE / 16];

	for (i = 0, j = 0; i < seg * 6; i+=6, j++) {
	for (i = 0, j = 0; i < seg * 6; i += 6, j++) {

	__bang_cycle_sub(x1, x1, scores_max_boxes_ptr, compute_len, compute_len);
	__bang_sub(x1, x1, scores_max_boxes_ptr);

		__bang_cycle_add(tem, area_ptr, scores_max_boxes_area_ptr,
		compute_len, compute_len);

	__bang_cycle_add(tem, area_ptr, scores_max_boxes_area_ptr,
	compute_len, compute_len);
	__bang_add(tem, area_ptr, scores_max_boxes_area_ptr);

	for (int i = 0; i < input_boxes_num * 4; i+=4) {
	for (int i = 0; i < input_boxes_num * 6; i += 6) {

Feature: Add new operator ml_nms #325

Are you sure you want to change the base?

Feature: Add new operator ml_nms #325

Conversation

wenzhengyin commented Dec 13, 2022 • edited Loading

1. Motivation

2. Modification

3. Test Report

3.1 Modification Details

3.1.1 Accuracy Acceptance Standard

3.1.2 Operator Scheme checklist

3.1.3 New Feature Test

3.1.4 Parameter Check

3.2 Performance Test

3.3 Summary Analysis

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

defei-coder Feb 10, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

defei-coder commented Mar 29, 2023

wenzhengyin commented Dec 13, 2022 •

edited

Loading

defei-coder Feb 10, 2023 •

edited

Loading