树人论文网一个专业的学术咨询网站!!!
树人论文网

固体金属垃圾分类中基于深度学习方法的研究

来源: 树人论文网发表时间:2021-11-12
简要:摘 要:固体金属垃圾具有巨大的回收利用空间和经济再利用价值.在日常生活中,金属垃圾的分类回收主要依靠传统人工分类,费时费力.为此本文提出一种基于深度学习的方法对金属垃圾进行

  摘 要:固体金属垃圾具有巨大的回收利用空间和经济再利用价值.在日常生活中,金属垃圾的分类回收主要依靠传统人工分类,费时费力.为此本文提出一种基于深度学习的方法对金属垃圾进行分类:构建一个包含6类共 17 804张图片的固体金属垃圾数据集并命名为GX-TrashNet;采用ResNet-101作为分类模型,加入注意力机制模块提升模型的分类准确率;使用卷积核大小为1*1的卷积层代替注意力机制模型中的全连接层,使用全局平均池化层作为分类器.实验结果表明,改进后的模型在GX-TrashNet上的分类准确率为97.00%,在TrashNet上分类准确率为80.87%.

  关键词:固体金属垃圾;垃圾分类;深度学习;注意力模块;卷积神经网络

固体金属垃圾分类中基于深度学习方法的研究

  吕东; 王萍; 王宇航; 王智文; 张灿龙, 广西科技大学学报 发表时间:2021-11-12

  0 引言

  垃圾是放错了位置的资源,相比于生活垃圾分类回收,金属垃圾回收再利用有着巨大的经济效益和社会效益,并且金属垃圾形态相对固定,容易分辨.垃圾分类在计算机视觉中属于图像分类.图像分类是人脸识别[1-2] 、目标检测等高级任务的重要基础.随着人工智能技术的发展,越来越多的研究人员开始采用深度学习方法进行垃圾分类.文献[3]构建了一个公开的包括6类共2 527张垃圾图片的数据集TrashNet,在该数据集上有许多研究者进行了一系列实验[4-15] ,其中具有代表性的有:Adedeji 等[11] 将 ResNet-101 的分类器替换为 SVM,在训练中采用 ImageNet 数据集上预训练好的权重,取得了 87.00% 的准确率 . 文献[12]将轻量型网络 Mo‐ bileNet用到该数据集上进行训练,取得 87.20% 的准确率,并且推出了能用于实际测试的垃圾分类 APP.文献[13]提出了一种轻量型垃圾分类模型Re‐ cycleNet,在实验中尽管测试速度较慢,但该模型大大减少了模型参数,降低了模型复杂度 .Yang 等[14] 提出了一种轻量型模型 WasNet,在实验中对比了AlexNet、VGG-19和Iception-ResNet在该数据集上的分类性能,其中WasNet的分类准确率最佳,为 96.10%;此外,该作者还将训练好的模型嵌入移动端进行了测试 . 文献[15]对比了多种卷积神经网络模型,在训练前加载 ImageNet 数据集上的预训 练 权 重 , 在 训 练 时 进 行 参 数 微 调 , 使 用 DenseNet-121取得了95.00%的准确率.

  虽然TrashNet数据集凭借图像尺寸统一和背景干净的优势使许多学者完成了一系列优秀的实验,但是TrashNet数据量小,分类类别范围模糊,模型训练很容易过拟合.而且现阶段实验研究多为基于生活垃圾的分类,对于固体金属垃圾的分类研究较少,因此,有必要采用深度学习方法对固体金属垃圾进行分类研究.

  1 相关内容简介

  1.1 数据集简介

  在垃圾分类任务中,最常用的数据集是由斯坦福大学 Yang 等[3] 收集构建的包括 6 类共 2 527 张垃圾图像数据集TrashNet.TrashNet数据集如图1、表 1所示.

  通过实际调研发现,目前尚无开源的固体金属垃圾数据集可供使用,因此,参考TrashNet数据集格式,构建了一个包含6类共17 804张固体金属垃圾图片的数据集GX-TrashNet. GX-TrashNet数据集如图 2、表 2 所示 .GX-TrashNet 主要由手机实地拍摄、网络爬虫和人工手动数据增强3种不同方法构成.在初步收集部分数据集后,随机对部分图像做了旋转、左右翻转、对比度增强和亮度变化数据扩充操作,部分样本数据扩充如图3所示.

  1.2 模型的选择及改进

  选择ResNet-101作为固体金属垃圾分类模型. 在 ResNet 提出之前,研究人员发现随着神经网络层数的加深,神经网络的训练不可避免地出现了退化问题 . 而 ResNet 的提出很好地解决了这一问题,最大的创新点是残差学习单元的提出.残差学习单元在神经网络的输入层和输出层之间建立了一条直接的关联通道,使得底层信息特征与高层信息特征更好地融合.文献[16]证明,对比直接堆叠的网络,残差学习单元的提出将网络计算性质从乘法变为加法,从而让神经网络计算变得更加稳定,可训练的网络层数也大大增加.残差学习单元如图4所示.

  在确定了分类模型之后,由于收集的固体金属垃圾数据集在收集完毕后并没有做过多的预处理,因此,数据集内存在很多背景复杂、图像模糊、难以辨认类别的图像.对于卷积神经网络模型来说,图像复杂的背景会干扰模型提取特征并影响分类的正确性.因此,加入注意力机制,忽略图像中无关信息而关注重点信息十分必要.本文对于ResNet-101的改进主要分为3部分:首先,在网络模型中加入注意力模块来提高分类准确率;其次,使用卷积核大小为1*1的卷积层替代注意力模块中的全连接层;最后,使用全局平均池化层作为分类器.

  2 对比实验与结果分析

  本 文 对 比 了 ResNet-101 分 别 加 入 SE[17] 和 CBAM[18] 前后在 TrashNet 和 GX-TrashNet 数据集上的分类性能指标.将TrashNet数据集和GX-TrashNet 数据集按照6∶2∶2划分为训练集、验证集和测试集.数据集划分后的样本数量如表3所示.

  在进行ResNet-101加入注意力模块前后对比实验之前,加载了在 ImageNet 数据集上预训练好的 ResNet-101 权重,并在 TrashNet 和 GX-TrashNet 数据集上进行训练.在训练中冻结ResNet-101中所有卷积层,只训练自定义的分类器 .ResNet-101 模型改进前的训练细节如表4所示.

  为了能够使用在ImageNet上预训练好的模型权重,只在ResNet-101的最后一个卷积块中加入注意力模块.在训练时,不冻结任何层,使用动态学习率,设置最大学习率为 1e-4,最小学习率为 1e-6,学习率缩放比例设置为0.3,设置Patience 为2,监测指标为验证集损失 .ResNet-101 模型改进后的训练细节如表5所示.

  2.1 评价指标

  选择混淆矩阵,将准确率A(Accuracy)、查准率 P(Precision)、 召 回 率 R(Recall)、 特 异 度 S (Specificity)作为评价指标 . 混淆矩阵如表 6 所示,其余模型性能评价指标分别如式(1)—式(4)所示.

  其中:NTP 表示样本被正确检测出来的个数,NFP表示其他样本被误检成本样本的个数,NFN 表示误将样本检测出其他样本的个数;NTN 表示非本样本检测出非本样本的个数.

  2.2 实验结果对比分析

  首先进行了 ResNet-101 在 TrashNet 数据集和 GX-TrashNet数据集上加入SE前后的对比实验,其中空洞率ratio设置为16.为了方便对比分类模型的整体性能指标,将各个类别的Precision、Recall和Specificity 求和取得平均值 . 混淆矩阵如图 5 所示,各个类别的评价指标如表7和表8所示,模型改进前后的性能指标如表9所示.

  通过对比表7—表9,可以看出,加入SE后,在 GX-TrashNet数据集上模型准确率由87.01%增长到 97.04%,提高了10.03%,查准率提高了8.92%,召回率提高了9.85%,特异度提高了2.00%;在Trash‐ Net数据集上模型准确率提高了1.19%,查准率提高了 0.28%,召回率提高了 2.97%,特异度提高了 0.35%.综上所述,加入SE模块后,ResNet-101_V1 在 2 个数据集上的各项性能指标都有了增长,但 TrashNet数据集样本数量较少,增长并不明显.

  其次进行了 ResNet-101 在 TrashNet 数据集和 GX-TrashNet 数据集上加入 CBAM 前后的对比实验,其中空洞率ratio设置为16.同样地,为了方便对比分类模型的整体性能指标,将各个类别的Pre‐ cision、Recall 和 Specificity 求和取得平均值 . 混淆矩阵如图6所示,各个类别的评价指标如表10和表 11所示,模型改进前后的性能指标如表12所示.

  通过对比表 10—表 12,可以看出,虽然加入 SE 模块和 CBAM 模块在 GX-TrashNet 数据集上取得近似一致的性能指标,但是在TrashNet数据集上并没有明显的提高,反而降低了部分性能指标.可能的原因有:1)TrashNet 数据集本身的样本数量少,在训练中出现了过拟合现象,导致模型在训练时没有达到最佳性能指标时就已经早停了;2) CBAM模块较SE模块结构复杂,在通道注意力模块(CAM)和空间注意力模块(SAM)中分别 2 次使用平均值池化和最大值池化操作,很有可能部分图像特征信息因此被裁剪掉;3)TrashNet数据集的背景较GX-TrashNet数据集的背景干净,图像尺寸统一,因此,特征信息可能会丢失的更多.

  3 结论

  本文对基于注意力机制的深度学习固体金属垃圾分类进行了研究,获得如下结论:

  1)针对固体金属垃圾分类研究实验的不足,收集了 6 类共 17 804 张垃圾图像,并命名为 GXTrashNet.选用ResNet-101作为分类模型.为提高分类准确率,加入注意力机制模块,并使用全局平均池化层代替分类器,使用卷积核大小为1*1的卷积层代替注意力机制模块中的全连接层.

  2)在加入SE模块后,ResNet-101在2个数据集上的各项性能指标都有了增长,但在TrashNet数据集上增长的并不明显 . 在加入注意力机制模块 SE 后,ResNet-101在GX-TrashNet数据集上模型准确率由 87.01% 增长到 97.04%,提高了 10.03%,在 TrashNet 数据集上模型准确率由 79.68% 增长到 80.87%,只提高了1.19%.

  3)在加入注意力机制模块 CBAM 后,ResNet101在GX-TrashNet数据集上取得了与加入SE模块后类似的分类性能指标,但是在TrashNet数据集上分类准确率下降了1.6%.通过分析,最终选择使用 SE模块,并且设置Ratio为16.