- datasets文件夹下存放的图片分为两部分,train里面是训练图片,test里面是测试图片。
- 在训练之前需要首先准备好数据集,在train或者test文件里里面创建不同的文件夹,每个文件夹的名称为对应的类别名称,文件夹下面的图片为这个类的图片。文件格式可参考如下:
|-datasets
|-train
|-cat
|-123.jpg
|-234.jpg
|-dog
|-345.jpg
|-456.jpg
|-...
|-test
|-cat
|-567.jpg
|-678.jpg
|-dog
|-789.jpg
|-890.jpg
|-...
- 在准备好数据集后,需要在根目录运行txt_annotation.py生成训练所需的cls_train.txt,运行前需要修改其中的classes,将其修改成自己需要分的类。
- 之后修改model_data文件夹下的cls_classes.txt,使其也对应自己需要分的类。
- 在train.py里面调整自己要选择的网络和权重后,就可以开始训练了!
- 下载完库后解压,model_data已经存在一个训练好的猫狗模型mobilenet025_catvsdog.h5,运行predict.py,输入
img/cat.jpg
- 按照训练步骤训练。
- 在classification.py文件里面,在如下部分修改model_path、classes_path、backbone和alpha使其对应训练好的文件;model_path对应logs文件夹下面的权值文件,classes_path是model_path对应分的类,backbone对应使用的主干特征提取网络,alpha是当使用mobilenet的alpha值。
_defaults = {
#--------------------------------------------------------------------------#
# 使用自己训练好的模型进行预测一定要修改model_path和classes_path!
# model_path指向logs文件夹下的权值文件,classes_path指向model_data下的txt
# 如果出现shape不匹配,同时要注意训练时的model_path和classes_path参数的修改
#--------------------------------------------------------------------------#
"model_path" : 'model_data/mobilenet_catvsdog.pth',
"classes_path" : 'model_data/cls_classes.txt',
#--------------------------------------------------------------------#
# 输入的图片大小
#--------------------------------------------------------------------#
"input_shape" : [224, 224],
#--------------------------------------------------------------------#
# 所用模型种类:
# mobilenet、resnet50、vgg16是常用的分类网络
# cspdarknet53用于示例如何使用mini_imagenet训练自己的预训练权重
#--------------------------------------------------------------------#
"backbone" : 'mobilenet',
#-------------------------------#
# 是否使用Cuda
# 没有GPU可以设置成False
#-------------------------------#
"cuda" : True
}
- 运行predict.py,输入
img/cat.jpg
- datasets文件夹下存放的图片分为两部分,train里面是训练图片,test里面是测试图片,在评估的时候,我们使用的是test文件夹里面的图片。
- 在评估之前需要首先准备好数据集,在train或者test文件里里面创建不同的文件夹,每个文件夹的名称为对应的类别名称,文件夹下面的图片为这个类的图片。文件格式可参考如下:
|-datasets
|-train
|-cat
|-123.jpg
|-234.jpg
|-dog
|-345.jpg
|-456.jpg
|-...
|-test
|-cat
|-567.jpg
|-678.jpg
|-dog
|-789.jpg
|-890.jpg
|-...
- 在准备好数据集后,需要在根目录运行txt_annotation.py生成评估所需的cls_test.txt,运行前需要修改其中的classes,将其修改成自己需要分的类。
- 之后在classification.py文件里面修改如下部分model_path、classes_path、backbone和alpha使其对应训练好的文件;model_path对应logs文件夹下面的权值文件,classes_path是model_path对应分的类,backbone对应使用的主干特征提取网络,alpha是当使用mobilenet的alpha值。
_defaults = {
#--------------------------------------------------------------------------#
# 使用自己训练好的模型进行预测一定要修改model_path和classes_path!
# model_path指向logs文件夹下的权值文件,classes_path指向model_data下的txt
# 如果出现shape不匹配,同时要注意训练时的model_path和classes_path参数的修改
#--------------------------------------------------------------------------#
"model_path" : 'model_data/mobilenet_catvsdog.pth',
"classes_path" : 'model_data/cls_classes.txt',
#--------------------------------------------------------------------#
# 输入的图片大小
#--------------------------------------------------------------------#
"input_shape" : [224, 224],
#--------------------------------------------------------------------#
# 所用模型种类:
# mobilenet、resnet50、vgg16是常用的分类网络
# cspdarknet53用于示例如何使用mini_imagenet训练自己的预训练权重
#--------------------------------------------------------------------#
"backbone" : 'mobilenet',
#-------------------------------#
# 是否使用Cuda
# 没有GPU可以设置成False
#-------------------------------#
"cuda" : True
}
- 运行eval_top1.py和eval_top5.py来进行模型准确率评估。
以是否为人脸分类为任务,主要做了以下尝试:
- 数据预处理做了random crop;
- 人脸图片的区域做了约束,以人脸检测器的box为基础,以tddfa的方式外扩了1.58倍;
- 以人脸检测器为基础,短边外扩到和长边一致;
- 在Dataset预处理过程中实时裁剪非人脸区域,扩增非正样本的数量;
- 以tddfa为对齐方式,送入人脸分割模型得到人脸的mask,将四通道的图作为输入送入分类模型,因此需要更改脚本为torch.multiprocess的启动方式,因为Dataset中不支持初始化GPU的推理操作,为此,还需要重新初始化因为新增通道导致的预训练模型的初始权重维度,由(bactch, 3, 256, 256)改为(batch, 4, 256, 256), 新增的通道权重可以为三个通道的均值, 训练脚本为train_mp.py;