树人论文网一个专业的学术咨询网站!!!
树人论文网

基于卷积神经网络的经济林产品检测与分选研究进展

来源: 树人论文网发表时间:2021-07-01
简要:摘要:经济林作为重要森林资源,其种植面积及产品产量逐年增加。随着科学技术的不断创新与升级,经济林产品加工产业快速发展、衍伸产品日趋增多,急需智能化检测、采收与分选

  摘要:经济林作为重要森林资源,其种植面积及产品产量逐年增加。随着科学技术的不断创新与升级,经济林产品加工产业快速发展、衍伸产品日趋增多,急需智能化检测、采收与分选技术与装备。深度融合人工智能技术与经济林产品加工产业,是实现高效化、精准化、智能化发展的重要手段之一。文中综合比较了深度学习技术中不同卷积神经网络算法及模型的优缺点,综述了其在经济林产品检测与分选中的研究进展,并针对研究应用过程中存在的问题提出了建议,以期为经济林产品检测与分选的智能化发展提供参考。

基于卷积神经网络的经济林产品检测与分选研究进展

  本文源自张晓; 刘英; 李玉荣; 费叶琦, 世界林业研究 发表时间:2021-06-30

  关键词:卷积神经网络,经济林,目标检测,产品分选,应用研究

  经济林是森林资源的重要组成部分,根据联合国粮农组织发布的 2020 年《全球森林资源评估》报告,全球共有 40.6 亿 hm2 森林,约 30%的森林用于木材和非木材林产品生产,其中非木材林产品主要包括经济林果、木本粮油、森林药材、林产饮料、森林食品等。2018 年我国各类经济林产品产量达到 1.57 亿 t,总产值达到 7.33 万亿元。经济林产业具有资源丰富、产品种类多、应用范围广等特点[1-2]。随着科学技术的不断创新与升级,经济林产品加工产业快速发展、衍伸产品也日趋增多[3-4]。但目前我国在经济林产品资源利用上仍存在采收不及时、效率低下、产品分级不严格以及商品化处理落后等问题,因此对新技术、新装备的需求极大。近年来,基于深度学习的人工智能技术不断推陈出新,为经济林产品检测、采收与分选技术及装备研究提供了理论依据,为产业的高效化、精准化、智能化发展提供了重要技术支撑。本文将简述卷积神经网络的发展历程,综合比较不同卷积神经网络算法及模型的优缺点,以及在经济林产品检测与分选中的研究进展,并针对实际应用过程中存在的问题提出进一步的研究建议,以期基于深度学习技术的卷积神经网络在经济林产品检测与分选领域中的应用发挥更重要的作用。

  1 卷积神经网络发展历程及特点

  卷积神经网络(CNN)是深度监督学习的代表算法之一,是一种带有卷积结构的深度神经网络,结构形式为:输入层--> 卷积层 --> 池化层 --> (重复卷积、池化层) … --> 全连接层--> 输出结果,至少包括 5 个隐含层。其中卷积层(convolutional layer)用于提取特征;池化层(max pooling layer)用于下采样(down sampling),却不损坏识别结果;全连接层(fully connected layer)用于分类。CNN 利用反向传播算法训练卷积神经网络中的权重,使其特有的感受野结构与实际的生物神经网络更加接近,更能有效地提取复杂任务的高阶非线性特征[5],解决了传统人工智能网络参数太多、训练复杂且冗余等问题,其模型的准确率也比传统方式高很多[6]。CNN 通过稀疏连接、权重共享、最大池采样等,具有极强的适应性,善于挖掘数据局部特征,提取目标的全局训练特征和分类[7],常用于复杂多样环境下的目标检测、图像识别与分类等[8-9],其发展历程如图 1 所示。

  1)目标识别与分类。1998 年 LeCun 等基于 Fukushima 的研究工作使用 BP 算法设计并训练得到了 LeNet-5 模型,随后涌现出 AlexNet、VGG16、VGG19 等新模型,通过不断迭代优化,模型的训练速度得到提升,准确率也逐步提高。但随着网络层数及参数的不断增加,网络参数压缩研究也相继被提出,如 GoogLeNet 的 inception 模块、ResNet 的残差连接结构等[10]。经典卷积神经网络模型的优点及相关参数如表 1 所示。

  2)目标检测。区域卷积神经网络算法(Region-CNN)是第 1 个成功将深度学习应用到目标检测上的算法,随着研究不断深入,Fast RCNN、Faster RCNN、Mask RCNN 等算法横空出世。其中 Faster RCNN 克服了提取卷积特征时的冗余操作,提出了 RPN 结构,并融入 GPU 并行运算能力,大大提高了算法的检测和识别速度而不降低精度[11]。在此基础上,Mask RCNN 增加了像素级别的实例分割遮罩分支,同时实现了目标检测和实例分割,统一网络损失[12]。不同算法综合比较如表 2 所示。

  2 不同卷积网络算法在经济林产品目标检测中的应用

  随着油茶、红枣、茶叶、林果等经济林产品种植面积不断增加,产品产量逐年上升,利用智能机器人技术提高林产品采摘效率、节约人力成本已是必然趋势,因此在自然环境下进行目标果实的准确分割、特征提取及检测对经济林产业智能化发展具有重要的科学研究意义和广阔的应用前景。反向传播神经网络(BPNN)、随机森林(RF)、主成分分析(PCA)、遗传算法(GA)和支持向量机(SVM)等基于浅层神经网络的模型算法普遍存在特征提取不完全、网络泛化性能差、网络鲁棒性差等问题;且往往只考虑单一特征,网络收敛速度较慢,容易陷入局部最优,不能快速、准确地检测多目标。

  因此,许高建等[13]基于 Faster RCNN 深度网络模型开展了茶叶嫩芽的检测研究,利用区域建议网络生成高质量的区域建议框,选用随机梯度下降算法(BGD)作为模型优化器,实验结果表明,模型精确率为 85.14%,召回率为 78.9%,mAP 为 82.17%,该深度网络模型能够有效识别茶叶嫩芽。朱超伟[14]提出一种改进的单一损失函数 Fast RCNN 模型用于灵武长枣的检测,通过较小维度的网络深度和卷积次数识别目标,使用双层损失函数(A-softmax loss、L-softmax loss 函数)并行运算,实验结果表明,该模型的精确率、召回率、mAP 分别提升至 92.96%、94.62%、80%,相比其他模型有明显提高。闫建伟等[15]通过 Faster RCNN 的交替优化训练方式、双线性插值、感兴趣区域校准(ROI align)的区域特征聚集等手段,使得自然环境下刺梨果实检测的目标矩形框更加精确,召回率最高达到 96.93%,准确率最高达到 95.53%,同时检测的平均速度能够达到 0.25 s/幅。陈斌等[16]基于 Faster-RCNN 卷积神经网络模型检测自然环境中的油茶果图像,利用边框回归修正锚框获得精确的候选区域,再利用区域生成网络 RPN 进行分类和校准,检测结果表明,准确率达到 98.92%,图像识别时间为 0.21 s/幅,进一步提高了油茶果的识别精度与速度,满足了实时检测要求。但上述研究仍存在参数量大、训练速度慢、训练时间较长等问题。因此,任会等[17]基于 Faster-RCNN 网络构建了橘子识别模型,采用 Softmax 得到锚框属于物体或背景的概率,相较于传统方法,不仅识别率提升了 26%,还减少了参数量和预测时间,大幅加快了训练速度。张习之等[18] 还提出一种基于改进 Mask RCNN 网络的油茶果检测分割方法,对特征提取模块进行改造,利用并联的不同尺寸的分解卷积核实现对不同类型特征学习,模型识别准确率、精确率、召回率分别为 87.5%、87.9%和 87%。Mask RCNN 网络的层数较浅,计算量较小,训练时间仅为 27 h,该算法在训练时间上有明显优势,具有较好的实时性与一定的实用性。

  综上所述,Faster RCNN、Mask RCNN 等新算法通过接入区域生成网络 RPN、引入双层损失函数、融合提取多特征等手段极大地提高了网络的学习能力、稳定性等。相比传统算法,基于深度学习技术的卷积神经网络能更好地适应田间复杂环境,目标检测效果更优,检测速度也基本达到实时采摘的要求,检测模型的实用性得到极大地提升。但目前国内大部分研究主要针对二维图像进行训练及检测,缺乏对多维信息的研究,无法获取图像中的目标位置,尤其在复杂环境背景下,光照、阴影以及遮挡对小目标或稠密目标识别效果影响非常大,后续可以考虑采用深度相机、双目相机、测距雷达等[19]手段获取更多复杂条件下的样本数据信息,建立多维信息的数据集,增加模型的普适性。例如,Bargoti 等[20]提出一种具有 CNN 和多尺度多层感知器(MLP)2 种特征学习的图像分割方法,结合球形数字相机获取 360° 全景视图,并基于霍夫圆变换(CHT)和分水岭分割算法(WS)对自然环境下的果园图像数据进行苹果、芒果的检测和计数,结果表明,误差从 13.3%提高到了 10.84%,其 F1值最高达到 86.1%,平方相关系数 r 2 为 0.826。Madeleine 等[21]提出一种多传感器框架来识别、跟踪、定位和检测果园中的芒果,综合采用彩色相机、全球定位惯性导航系统(GPS/INS)和 3D 激光雷达收集多维数据信息,利用 GPS 轨迹数据进行图像比对、3D 激光雷达自动生成冠层图像掩模,结果表明,采用多视图方法不需要额外校准,每棵树的错误率仅为 1.36%。

  3 不同卷积网络模型在经济林产品分选中的应用

  常规人工分选不仅分级效率较低,且受个人主观因素影响,难以实现标准化作业,不能满足市场需求。因此,依据经济林产品精深加工生产需求,采用近红外光谱、高光谱、深度学习等技术进行原果精确识别与高效分选,对提高经济林产品的品质和附加值具有重要意义。基于上述图像识别技术能够得到丰富的图像信息和光谱信息,然而传统的支持向量机 ( SVM)、连续投影算法(SPA)、偏最小二乘法(PLS)、神经网络(BP)、遗传算法(GA)等已无法适应越来越庞大且复杂的数据量,其模型识别与预测能力性能也有待进一步提升。例如,使用 SPA 提取样本特征建立 LS-SVM 模型,利用大规模训练样本对正常、黑斑、破裂核桃进行判别,存在训练速度较慢、不适合多分类研究等问题[22]。例如,利用 BP 神经网络、偏最小二乘法、支持向量机的多源信息融合模型进行板栗分级,利用 PLS 模型进行核桃壳、核桃仁、分心木的识别与分选,均存在收敛速度慢、局部极小化、预测能力和训练能力矛盾、样本依赖性高等问题[23]。利用 GA 算法进行油茶果果壳与茶籽分选,存在过早收敛、效率低、不能全面表示优化问题的约束等问题[24]。

  针对上述问题,海潮[25]对 GoogleNet Inception-v3 模型的学习率、批次大小、迭代次数进行调节与优化,实验结果表明,该模型对于干条、黄皮、破头、霉变 4 类缺陷以及正常枣的识别效果良好,准确率达到 98.65%,但训练时间较长;因此又利用迁移学习在较少的数据集上实现较好的训练效果,节省了大量训练时间,准确率为 94.60%。Zhou 等[26]基于卷积网络 VGG 模型,应用 SWA 优化器和 w-softmax 损失函数对青梅进行多缺陷分类,实验结果表明,正常青梅的识别率达到 95.65%,单个青梅图像检测时间为 84.69 ms。谢为俊等[27] 对 AlexNet 网络进行优化,选用批量归一化(BN)作为模型归一化方法,提高模型训练收敛速度和模型的泛化性能;利用 Swish 函数可有效解决 ReLU 激活函数出现神经元死亡的问题,从而提高模型准确率和训练收敛速度;通过压缩模型卷积层感受野和全连接层节点,可进一步提高训练速度;实验结果表明,该模型对油茶籽完整性的识别准确率达到 98.05%。王立扬等[28]通过改进经典卷积神经网络 LeNet-5 模型以提高苹果分级准确率,改用LeakyReLU 激励函数,并加入 Dropout层防止过拟合,实验结果表明,测试集准确率达 98.37%,识别时间为 120 ms。通过上述研究,逐步提升了网络模型的准确率,但识别时长仍不太理想。因此,Wang 等[29]基于蓝莓高光谱数据,利用残差网络 ResNet 和改进 ResNeXt 网络对不同蓝莓内部品质损伤进行分选,相比传统机器学习方法,2 种深度学习网络具有更好的分类性能,实验结果表明,微调后每个测试样本的分类时间仅为 5.2 和 6.5 ms,但 ResNet 和 ResNeXt 网络的平均准确率和 F1仅为 88.44%、87.84%和 89.52%、89.05%。Altheri 等[30]根据红枣成熟度、类型等构建红枣果实实时分类模型,数据集包含 350 多个枣丛的 5 种不同成熟度红枣,共 8 072 张图像,使用 AlexNet、VGG-16 和改进 VGG-16 3 个 CNN 模型进行比对,实验结果表明,模型分类准确率分别为 99.01%、97.25%和 98.59%,分类时间分别为 20.7、 20.6 和 35.9 ms,均能够满足工厂自动化分级的需求。

  综上所述,相比传统算法,AlexNet、VGGNet、GoogleNet 和 ResNet 等 CNN 深度学习模型在网络学习能力、特征表达能力、缓解模型退化和降低运算量等方面具有更好的性能,模型训练泛化性能、收敛速度、准确率和识别时间均有很大提升,可满足在线实时分选的要求。但卷积神经网络作为监督学习的代表算法,存在样本数量大且需要精准预标定、计算量大、训练时间长等问题,且由于高光谱图像维度较高、信息量大、参数多,对硬件要求苛刻,尚难以用于实际规模化应用[31]。

  4 研究存在的不足及建议

  卷积神经网络在提取目标的全局训练特征和分类等方面具有明显优势[32],基于深层卷积神经网络的目标检测算法,通过图像语义分割、实例分割、图像标注等手段,具有泛化能力强、鲁棒性好等特点[33]。因此,在经济林产品目标检测和分选中的应用越来越广泛,但也面临着很多困难与挑战,还需要对深度学习理论进行不断优化与改善,为经济林产品加工产业的高效化、精准化、智能化发展提供重要技术支撑。

  4.1 存在的不足

  1)需要庞大的样本集和精准的预标定。CNN 作为监督学习的典型图像分类算法,训练样本大,耗时较长,并需要通过频繁迭代训练提高网络精度,且采用梯度下降算法很容易使训练结果收敛于局部最小值而非全局最小值。因此,在算法模型的收敛速度、延展性及数据规模等方面仍有待进一步优化提升。

  2)网络结构模型逐渐复杂化。由于需要基于近红外光谱、高光谱技术提供的海量数据进行训练、调参、寻优,R-CNN、Fast R-CNN 等两阶段目标检测算法模型整体较大,存在模型复杂、层次深、训练参数多、训练时间长等缺点,无法在检测速度、精度及模型大小方面实现较好的平衡;且为了保证算法的准确率和实时性,对计算机图形处理器(GPU)、内存等硬件要求更高,无法满足小设备上的应用要求。

  3)小目标或稠密目标的特征信息不完善。由于田间环境复杂,且油茶、红枣、茶叶、林果等经济林产品体积较小,多呈聚集状态。常规的二维图像数据无法全面表述目标特征信息,在实际检测过程中无法有效解决图像遮挡、交叠、复杂背景颜色高度相似性等问题。

  4.2 进一步研究建议

  1)深度优化监督学习算法。例如,将有监督学习转化为半监督或无监督学习,无监督学习算法既没有训练集,也无须预标定。基于神经科学研究,可堆栈多层,以贪婪式的方式逐层重复训练,减少数据依赖性。

  2)轻量化设计网络框架模型。引入专门针对移动端设计的轻量化网络架构,如 MobleNets、GhostNet 等新网络,运用深度分离卷积代替传统卷积、线性映射生成更多的特征图等方法,减少模型参数和计算量,缩短训练时间,提升模型实用性。在硬件上,使用云计算方式进行深度学习训练,降低运算成本。

  3)构建多元化数据集。结合相应的 3D 技术,如深度相机、双目相机、测距雷达等手段获取更多的训练样本信息,建立多维信息数据集,有效补充目标物的三维特征,以实现对目标物体更为高效、快速的检测与分选。