中文 | English
TinyMaix是面向单片机的超轻量级的神经网络推理库,即TinyML推理库,可以让你在任意单片机上运行轻量级深度学习模型~
我们的设计原则:易用性 > 移植性 > 速度 > 空间
tinyML基础介绍: TinyML
查看已移植的芯片测试结果: benchmark
好消息: TinyMaix有奖移植
关键特性
- 核心代码少于400行(tm_layers.c+tm_model.c+arch_cpu.h), 代码段(.text)少于3KB
- 低内存消耗,甚至Arduino ATmega328 (32KB Flash, 2KB Ram) 都能基于TinyMaix跑mnist(手写数字识别)
- 支持INT8/FP32/FP16模型,实验性地支持FP8模型,支持keras h5或tflite模型转换
- 支持多种芯片架构的专用指令优化: ARM SIMD/NEON/MVEI,RV32P, RV64V
- 友好的用户接口,只需要load/run模型~
- 支持全静态的内存配置(无需malloc)
- MaixHub 在线模型训练支持
在Arduino ATmega328上运行mnist demo
mnist demo
0000000000000000000000000000
0000000000000000000000000000
0000000000000000000000000000
000000000077AFF9500000000000
000000000AFFFFFFD10000000000
00000000AFFFD8BFF70000000000
00000003FFD2000CF80000000000
00000004FD10007FF40000000000
00000000110000DFF40000000000
00000000000007FFC00000000000
0000000000004FFE300000000000
0000000000008FF9000000000000
00000000000BFF90000000000000
00000000001EFE20000000000000
0000000000CFF800000000000000
0000000004FFB000000000000000
000000001CFF8000000000000000
000000008FFA0000000000000000
00000000FFF10000000000000000
00000000FFF21111000112999900
00000000FFFFFFFFA8AFFFFFFF70
00000000AFFFFFFFFFFFFFFA7730
0000000007777AFFF97720000000
0000000000000000000000000000
0000000000000000000000000000
0000000000000000000000000000
0000000000000000000000000000
0000000000000000000000000000
===use 49912us
0: 0
1: 0
2: 89
3: 0
4: 1
5: 6
6: 1
7: 0
8: 0
9: 0
### Predict output is: Number 2, prob=89
将 tm_layers.c 优化到 tm_layers_O1.c, 目标提升速度到 1.4~2.0X已完成- 针对64/128/256/512KB内存限制,找到合适的骨干网络
- 增加例程: Detector,KWS,HAR,Gesture,OCR,...
- ...
如果想参与进TinyMaix的开发,或者想与TinyML爱好者交流,
请加入我们的telegram交流群:https://t.me/tinymaix
TinyMaix 是专为低资源的单片机设计的AI神经网络推理框架,通常被称为TinyML
现在已经有很多TinyML推理库,比如TFLite micro, microTVM, NNoM, 那为什么我们又捏了TinyMaix这个轮子呢?
TinyMaix是两个周末业余时间完成的项目,所以它足够简单,可以再30分钟内走读完代码,可以帮助TinyML新手理解它是怎么运行的。
TinyMaix希望成为一个足够简单的TinyML推理库,所以它放弃了很多特性,并且没有使用很多现成的NN加速库,比如CMSIS-NN
在这个设计思路下,TinyMaix只需要5个文件即可编译~
我们希望TinyMaix可以帮助任何单片机运行AI神经网络模型, 并且每个人都能移植TinyMaix到自己的硬件平台上~
注意:虽然TinyMaix支持多架构加速,但是它仍然需要更多工作来平衡速度和尺寸
- 最高支持到mobilenet v1, RepVGG的骨干网络
- 因为它们对单片机来说是最常用的,最高效的结构
- 基础的 Conv2d, dwConv2d, FC, Relu/Relu6/Softmax, GAP, Reshape
- MaxPool, AvgPool (现在使用stride代替)
- FP32浮点模型, INT8量化模型, FP16半精度模型
- 转换keras h5或tflite到tmdl
- 简单模型使用keras/tf训练已经足够
- 复用了tflite现成的量化功能
- 模型统计功能
- 可选以减少代码尺寸
- INT16量化模型
- 优点:
- 更精确
- 对于 SIMD/RV32P 指令加速更友好
- 缺点:
- 占用了2倍的FLASH/RAM
- 优点:
- Concat算子
- 优点:
- 支持mobilenet v2, 模型精度更高
- 缺点:
- 占用了2倍的RAM
- concat 张量占用了更多时间,使得模型运算变慢
- 需要更多转换脚本工作转换分支模型到扁平结构
- 优点:
- Winograd卷积优化
- 优点:
- 可能加速卷积计算
- 缺点:
- 增加了RAM空间和带宽消耗
- 增大了代码段(.text)尺寸
- 需要很多变换,弱单片机可能会消耗更多时间
- 优点:
- BF16模型
- 多数单片机不支持BF16计算
- 精度不会比INT16高太多
- 占用了2倍的FLASH/RAM
- AVX/vulkan 加速
- TinyMaix是为单片机设计的,而不是为强大的电脑/手机设计
- 其他多样化的算子
- TinyMaix仅为单片机提供基础模型算子支持,如果你需要更特殊的算子,可以选择TFlite-micro/TVM/NCNN...
MNIST是手写数字识别任务,足够简单以至于可以在ATmega328这样的8位单片机上运行。
在电脑上测试:
cd examples/mnist
mkdir build
cd build
cmake ..
make
./mnist
mbnet (mobilenet v1) 是适用于移动手机设备的简单图像分类模型,不过对单片机来说也稍微沉重了些。
例程里的模型是mobilenet v1 0.25,输入128x128x3的RGB图像,输出1000分类的预测
它需要至少128KB SRAM 和 512KB Flash, STM32F411是典型可以运行该模型的最低配置。
在PC上测试运行mobilenet 1000分类图片例程
cd examples/mbnet
mkdir build
cd build
cmake ..
make
./mbnet
tm_err_t tm_load (tm_mdl_t* mdl, const uint8_t* bin, uint8_tbuf, tm_cb_t cb, tm_mat_t in);
mdl: 模型句柄;
bin: 模型bin内容;
buf: 中间结果的主缓存;如果NULL,则内部自动malloc申请;否则使用提供的缓存地址
cb: 网络层回调函数;
in: 返回输入张量,包含输入缓存地址 //可以忽略之,如果你使用自己的静态输入缓存
void tm_unload(tm_mdl_t* mdl);
tm_err_t tm_preprocess(tm_mdl_t* mdl, tm_pp_t pp_type, tm_mat_t* in, tm_mat_t* out);
TMPP_FP2INT //用户自己的浮点缓存转换到int8缓存
TMPP_UINT2INT //典型uint8原地转换到int8数据;int16则需要额外缓存
TMPP_UINT2FP01 //uint8转换到01的浮点数 u8/255.01的浮点数
TMPP_UINT2FPN11//uint8转换到-1
tm_err_t tm_run (tm_mdl_t* mdl, tm_mat_t* in, tm_mat_t* out);
TinyMaix的核心文件只有这5个:tm_model.c, tm_layers.c, tinymaix.h, tm_port.h, arch_xxx.h
如果你使用没有任何指令加速的普通单片机,选择 arch_cpu.h, 否则选择对应架构的头文件
然后你需要编辑tm_port.h,填写你需要的配置,所有配置宏后面都有注释说明
注意 TM_MAX_CSIZE,TM_MAX_KSIZE,TM_MAX_KCSIZE 会占用静态缓存。
最后你只需要把他们放进你的工程里编译~
在examples/mnist下有训练脚本可以学习如何训练基础的mnist模型
注意:你需要先安装TensorFlow (>=2.7) 环境.
完成训练并保存h5模型后,你可以使用以下脚本转换原始模型到tmdl或者c头文件。
- h5_to_tflite.py
转换h5模型到浮点或者int8量化的tflite模型 python3 h5_to_tflite.py h5/mnist.h5 tflite/mnist_f.tflite 0
python3 h5_to_tflite.py h5/mnist.h5 tflite/mnist_q.tflite 1 quant_img_mnist/ 0to1 - tflite2tmdl.py
转换tflite文件到tmdl或者c头文件
python3 tflite2tmdl.py tflite/mnist_q.tflite tmdl/mnist_q.tmdl int8 1 28,28,1 10
================ pack model head ================
mdl_type =0
out_deq =1
input_cnt =1
output_cnt =1
layer_cnt =6
buf_size =1464
sub_size =0
in_dims = [3, 28, 28, 1]
out_dims = [1, 1, 1, 10]
================ pack layers ================
CONV_2D
[3, 28, 28, 1] [3, 13, 13, 4]
in_oft:0, size:784; out_oft:784, size:680
padding valid
layer_size=152
CONV_2D
[3, 13, 13, 4] [3, 6, 6, 8]
in_oft:784, size:680; out_oft:0, size:288
padding valid
layer_size=432
CONV_2D
[3, 6, 6, 8] [3, 2, 2, 16]
in_oft:0, size:288; out_oft:1400, size:64
padding valid
layer_size=1360
MEAN
[3, 2, 2, 16] [1, 1, 1, 16]
in_oft:1400, size:64; out_oft:0, size:16
layer_size=48
FULLY_CONNECTED
[1, 1, 1, 16] [1, 1, 1, 10]
in_oft:0, size:16; out_oft:1448, size:16
layer_size=304
SOFTMAX
[1, 1, 1, 10] [1, 1, 1, 10]
OUTPUT!
in_oft:1448, size:16; out_oft:0, size:56
layer_size=48
================ pack done! ================
model size 2.4KB (2408 B) FLASH
buffer size 1.4KB (1464 B) RAM
single layer mode subbuff size 1.4KB (64+1360=1424 B) RAM
Saved to tmdl/mnist_q.tmdl, tmdl/mnist_q.h
现在你有了tmdl或者C头文件,把它放到你的工程里编译吧~
使用 MaixHub, 你可以下载或者上传已有模型, 同时可以在线训练你的 AI 模型, 不需要编写训练代码,也不需要机器学习基础,点点鼠标模型就训练好啦!
- 注册 MaixHub 并登录。
- 你可以从模型库下载已有模型,或者上传分享你的模型。
- 创建一个在线模型训练项目, 采集数据集并在线训练,最后会得到:
.tmdl
文件和.h
文件,用其中一个即可。report.json
, 训练报告信息, json 格式, 我们可以在此文件中获取到 标签(labels)或者 anchors, 在代码中可能会用到的参数,注意每次训练参数都不一样,注意更改,否则无法正确识别
- 有两种项目类别,分类 和 检测, 第一次使用建议使用 分类。
- 训练是有多个骨干网络(backbone)可选择,根据你的单片机的内存大小选择合适的骨干网络,内存越小则需要选择更小的骨干网络。
- 为了更好地理解 MaixHub 的使用方法, 开始可以不选择 tinymaix 平台, 而是选择 tfjs 平台训练,训练出可以在手机上运行的模型进行体验。
- 在 examples 目录下找到对应的例程,比如
maixhub_image_classification
或者maixhub_image_detection
来运行你训练的模型
TinyMaix使用基础的点积函数加速卷积运算 你需要在src里添加arch_xxx_yyy.h, 并晚上你自己平台的点积加速函数:
TM_INLINE void tm_dot_prod(mtype_t* sptr, mtype_t* kptr,uint32_t size, sumtype_t* result);
如果你需要向TinyMaix贡献代码,请先阅读“TinyMaix设计思路”一节,我们只需要“设计内的特性”和“可考虑添加的特性”。
如果你想要提交你的移植测试结果,请提交到 benchmark.md. 我们非常欢迎你移植TinyMaix到自己的芯片/板子上,这会证明使用TinyMaix运行深度学习模型是非常容易的事情~
如果你对TinyMaix的使用和移植有问题,可以在此仓库提交Issues。
如果你有商业或私有项目咨询,你可以发邮件到[email protected] 或 [email protected] (泽畔).