树人论文网一个专业的学术咨询网站!!!
树人论文网

高光谱成像的机采籽棉杂质分类检测

来源: 树人论文网发表时间:2021-11-13
简要:要 机采籽棉杂质分类检测为调整棉花清理机械加工参数和工序提供参考依据,对提升皮棉品质具有重要意义。但由于籽棉棉层分布不均匀,使得图像检测难度增大,使用传统的检测方法无法有

  要 机采籽棉杂质分类检测为调整棉花清理机械加工参数和工序提供参考依据,对提升皮棉品质具有重要意义。但由于籽棉棉层分布不均匀,使得图像检测难度增大,使用传统的检测方法无法有效检测各类杂质。采用高光谱成像方法对机采籽棉中的棉叶、棉枝、地膜和铃壳(内外)五种杂质进行分类判别检测。首先采集120个机采籽棉样本的高光谱图像,选取感兴趣区域获取平均光谱曲线。发现由于物质构成的差异,不同杂质体现出不同的吸收和反射特性,不同种类物质之间的光谱差异大于同类物质。对提取的平均光谱曲线进行主成分分析(PCA),结果显示棉花、残膜和铃壳外与其他三类相比,有较好的聚集性和可分性,但是棉叶、铃壳内和棉枝三类相互叠加在一起,空间分布存在严重交叉重叠。以提取的平均光谱曲线为训练样本,选择线性判别分析(LDA)、支持向量机(SVM)和神经网络(ANN)三种分类判别算法,对算法参 数 进 行寻优,并建立机采籽棉杂质分类判别模型。其中,经过 LDA 模型降维后的样本空间较PCA 表现出了更好的聚集性和可分性,采用正则化防止过拟合,得到训练集准确率为86.4%,测试集准确率为86.2%;SVM 模型的参数寻优结果为C=105,g=0.1,其训练集准确率为83.42%,测试集准确率为83.40%;ANN 模型参数寻优得到隐含层数和神经元个数分别为2和17,训练集准确率为82.9%,测试集准确率为81.8%。对三种模型的分类效果和检测用时进行比较,LDA 模 型 结 果 最 优。通过对高光谱图像进行像素等级分类判别,结果显示棉花识别效果较好,植物性杂质都被有效检测,但是地膜和棉花存在误识别,分类效果与杂质光谱的分类判别模型结果一致。因此,采用高光谱成像技术可以快速、无损的检测和识别籽棉杂质,为棉花加工装备提供反馈参数,对棉花加工机械化和智能化有重要意义。

  关键词 机采籽棉;杂质检测;高光谱成像;分类判别

高光谱成像的机采籽棉杂质分类检测

  常金强; 张若宇; 庞宇杰; 张梦芸; 扎亚, 光谱学与光谱分析 发表时间:2021-11-11

  引 言

  近年来棉花全程机械化生产比例增加,机采籽棉需要在后续加工过程中进行多道清理工艺,但是清理机械会对棉花纤维造成损失,降低加工所得皮棉的 品 质,影响最终产品价格和经济效益。因此对棉花杂质进行 检 测,并将杂质进行分类判别,为调整棉花清理机械加工参数和工序提供参考依据,对提升皮棉品质具有重要实际生产价值和意义。

  由于皮棉中异纤含量对价格影响较大,国内的研究主要集中在异性纤维检测[1-2]。张 志 峰 等[3]提出了一种基于改 进的自适应迭代阈值法皮棉疵点快速检测方法;张林等[4]采用LED与线激光的双光源一次成像方法,可以检测出各种颜色的异 性 纤 维;张 成 梁 等[5-6]、王 昊 鹏 等[7]提取机采籽棉可见光图像中杂质的颜色、形状和纹理特 征,对各类植物杂质进行分类检测;倪超等[8]采用深度学习方法对短波近红外高光谱图像中的地膜进行检测。

  国外的研究主要集中在植物性杂质的检测,Wang等[9]采用基于自动视觉检测系统的伪异性纤维检测方法,提高了棉花中异性纤维 的 分 类 精 度。Fortier等[10]建立棉花中植物杂质的近红外光谱库,进行杂质光谱分类识别。Li等[11-15]基于高光谱成像技术,采 用 反 射、透射和荧光等成像方式,应用降维、特征波段选择、分类判别算法等分析方 法,对 皮 棉中多种植物和异纤杂质进行检测。

  上述研究对象主要是皮棉,由于皮棉经过杂质清理和轧花去籽处理,杂 质 含 量 小,棉层均匀易于图像中杂质的检测;而机采籽棉中不仅含有较多杂质,且棉籽导致棉层不均匀,使得图像检测难度增大,使用传统的检测方法无法有效检测各类杂质。

  基于高光谱成像检测技术,根据棉花和各类杂质的光谱特征,针对机采籽棉中存在的植物和残膜杂质建立分类判别模型;并充分利用光谱图像的空间信息,实现对机采籽棉各类杂质的像素等级分类判别,为棉花加工设备提供快速信息反馈。

  1 实验部分

  1.1 样本的制备

  共取样籽棉10kg,其中籽棉取自棉花加工企业,地 膜取自采收后的棉花地。将籽棉和杂质手动混合均匀,每 个 样本(30±0.5)g,使用电子天平称重(量 程 1000g,分 度 值0.01g),共120个籽棉样本。样本中检测的杂质有棉叶,棉枝,铃壳(内和外)和地膜共5种杂质,如图1所示。

  1.2 高光谱成像系统和图像采集

  高光谱 图 像 采 集 系 统如图 2 所 示,由 成 像 光 谱 仪(ImspectralV10E-QE,Finland)、CCD 相 机 (C8484-05G,HamamatsuPhotonics,Japan)、镜 头、光 源(150 W 卤 素 灯,China)、电动位移 平 台(PSA200-11-X,Zolix)和 电 动 位 移 平台控制器(CS300-1A,Zolix)、暗 箱、PC 计 算 机 等 组 成;在PC上用Spectral软件进行图像采集软件控制。高 光 谱 成 像系统光谱范围为360~1000nm,光 谱 分 辨 率 为2.7nm,采集的图像有256个波段。

  为保证视野 足 够,调节镜头和样本的间距为 25.5cm;为矫正速度不匹配带来的空间畸变,使用一张打印有一个圆圈的 A4纸调试平台的速度,转 速 设 定 为940pulses·s-1;曝光时间为3.5ms。

  将样本置于内部大小为15cm×20cm×3cm 的样本盒中,分布均匀,将样本盒固定于移动平台上进行图像采集。样本盒覆盖有黑色背景纸,有利于后期掩膜去除背景以及后续处理。

  为减少光源光强分布不均匀导致的图像信息噪声影响,使用的高光谱成像系统在采集图像之前需要进行黑白校正。扫描聚四氟乙烯白板获得白校正图像;镜头拧上镜头盖并关闭光源采集黑 校 正 图 像,该图像包含有相机暗电流噪声信息。图像采集后用软件SpecView(V2.9.2.7)按式(1)进行校正Ia = I-IbIw -Ib(1)其中:I为 原 始 图 像,Ib 为 黑 校 正 图 像,Iw 为 白 校 正 图 像,Ia 为获取校正后的图像。

  1.3 机采籽棉数据分析和杂质多分类模型

  使用 PCA(principalcomponentanalysis,PCA)对平均光谱数据进行分析,将成百个相互高度相关波段数据降维至少数个新的主成分变量上,用来代替原来数据的大部分信息,并通过绘制分布散点图体现原光谱数据的分类识别可行性。

  采用 LDA,SVM 和 ANN 三种有监督的分类判别分析方法建立机采籽棉杂质多分类判别模型。模型训练的过程为:首先将提取的平均光谱数据按照7∶3的比例,随机划分为训练集和测试集;然后根据不同模型的参数特点和数据特性,使用训练集采 用5折 交 叉 验 证,确定最佳的模型参数,并使用测试集对模型结果进行评估。

  2 结果与讨论

  2.1 高光谱图像光谱曲线数据提取与分析

  2.1.1 平均光谱曲线提取与变化规律

  经过黑白校正后的图像,在可见至近红外波段上,共 有256个波段。意味着在空间域上每个像素具有 256个 特 征,这些特征组成该像素对应的光谱曲线。因高光谱图像中存在噪声,单一像素对应的光谱曲线可能在噪声的影响下,表 现出较大的变化。因为光谱成像仪的特 性,高光谱图像在首尾的波段图像 噪 声 较 大,有 用 信 息 较 少,所以将这些波段剔除,即去除395nm 以前和970nm 以后的光谱图像波段,将395~970nm 区间共226个光谱波段的数据作为后续分析数据。

  从每幅图像中提取10条平均光谱曲线,共1200条光谱曲线,其中棉叶、残膜、铃壳外、铃壳内、棉枝和棉花分别为457,173,88,193,63和226条。绘制机采籽棉中具有代表性的棉花和各类杂质的平均光谱曲线,如 图3所 示:各 类 物质在430nm 处附近反射率均为最小,吸 收 最 强;棉 花 的 反射率较其他物质在大部分波段范围高;残膜整体上和棉花变化趋势一致,但是数值比棉花低,验证了从图像上检测残膜的难度较大;铃壳内的反射率在750nm 前低于棉花和残膜,但是在750nm 后超过了棉花和残膜;棉 叶、棉 枝 和 铃 壳 外在趋势和数值上都比较相似,但 是 棉 叶 在680nm 处 出 现 了吸收峰,此现象对应了叶绿素的吸收波 段。从630nm 开 始到近红外波段范围内,铃壳外的反射率比棉叶和棉枝都高。

  综上所述,虽然棉花和各类杂质的光谱曲线趋势相同,但还是体现出不同的吸收和反射特性。不同种类物质(棉花、化学纤维和植物)之间的差异大于同类物质之间的光谱差异,同种物质之间的差异不能通过单个波段进行判别,所以需要进行数据分析和建模。

  2.1.2 机采籽棉光谱曲线 PCA 分析

  对提取的平均光谱曲线进行PCA 变换,如图4所示,前2个主成分的累计贡献率达到了97.2%,前6个主成分的累计贡献率达到了99.9%,能够代表原始光谱数据的大部分信息。PCA 前两个主成分的散点图如图5所示,6类物质光谱变换后的新变量分布于整个空间中。由 图 可 知,棉 花、残 膜和铃壳外与其他三类相比,有较好的聚集性和可分性,但 是由于棉叶、铃壳内和棉枝三类的物质组成(纤维素和木质素)相似性较高,光谱特征 相 似,导致相互叠加在一 起,空 间 分布存在严重交叉,无法有效区分类别。由于PCA 为无监督降维方法,无法有效利用分类信息,因此需要使用有监督的数据建模方法,对光谱分类数据进行学习拟合,实 现 对 杂 质 类别的准确识别。

  2.2 机采籽棉杂质光谱多分类模型

  2.2.1 线性判别分析(LDA)模型

  线性判 别 分 析(lineardiscriminantanalysis,LDA)是 将原始数据投影到更低的维度上,减少特征之间的线性相关性导致的特征冗余问题。通 过 LDA 进 行 降 维,可 以 达 到 提 升分类准确率的目的。

  与 PCA 中 的 分 布 相 比,图6(a)中 棉 花、残 膜 和 铃 壳 外有更好的聚集性和可分性,表 明 有 监 督 的 LDA 模 型 降 维 方法变换后的数据具有更好的可分性;但 是 棉 叶、铃 壳 内 和 棉枝这三类还是相互叠加在一起,空间分布存在严重交叉,无法有效区分 类 别。因此针对该三类重新进行了 LDA 降 维,见图6(b)中的棉叶、铃壳内和棉枝表现出了较高的可分性,验证了 LDA 模型在机采籽棉多分类上的可行性。

  因 LDA 易出现过拟合,因此在 LDA 模型构件中采用正则化防 止 过 拟 合,建 立 分 类 模 型,得到训练集准确率为86.4%,测试集准确率为86.2%,其 差 值 较 小,未 出 现 过 拟合现象。

  2.2.2 支持向量机(SVM)模型

  支持向量机(supportvectormachine,SVM)广 泛 应 用 于建立分类判别模型。在SVM 分类模型构建中采用 RBF径向基函数构建了分类模型,对gamma(g)和cost(C)两个参数进行 寻优,将Lg(g)和-Lg(c)参数区间设置为[0,10]。由图7可知,在C=105、gamma=0.1时,交叉验证集的准确率最高达到95.19%。根据最优参数模型得出训练集准确率为83.42%,测试集准确率为83.40%,两 者 差 值 较 小,未 出 现过拟合现象。

  2.2.3 人工神经网络(ANN)模型

  人工神经网络(artificialneuralnetwork,ANN)是一种影响强、分类效果好的神经网络分类算法,在解决非线性问题上具有较强能力。在 ANN 分类模型构建中,设 置 隐 含 层 层数区间为[1,10],隐含层神经元个数区间为[1,18],激 活函数选择 Relu函数进行参数寻优。由图8可知,在隐含层层数为2,隐含层神经元个数为17,交叉验证集的准确率达到最高为73.92%。以寻优所得到的参数,建立 ANN 分类模型并输出,训练集准确率为82.9%,测试集准确率为81.8%,没有发生过拟合。

  2.3 模型效果比较

  对上述的多分类模型准确率性能进行对 比,如 表 1 所示,结果显示 LDA 模型的准确率高于 SVM 模型和 ANN 模型,训练集和预测集的准确率达到了86.4%和86.2%。由于高光谱波段之间有较高的相关性,分类模型无法有效筛选信息,会引起误差的产生。LDA 在分类前对光谱特征进行了降维,减少了特征之间的相关性,保留了大部分类间信息,因此在多分类问题中,相较于SVM 和 ANN 具有更好的效果。

  三个模型预测效果如图9所示。在 LDA 模 型 中,地 膜、铃壳(内和外)和棉花的准确率较高,均高于90%;棉叶和棉枝 的 准 确 率 较 低,分 别 为 59.84% 和 77.08%,其 中 有26.77%的棉叶被识别为棉枝,9.72%的棉枝被识别为棉叶,9.72%的棉枝和8.66%的棉叶被识别为铃壳内;与 LDA 模型相比较,SVM 模 型 和 ANN 模型的铃壳内准确率有所降低,误差类别分布一致但较高。分析认为这些识别错误的原因主要是棉叶、棉枝和铃壳内的物质成分相似度高,导 致 在波段范围内表现出光谱曲线相似的特点。

  2.4 像素等级杂质分类判别

  根据三种算法对120个高光谱图像进行检测分类,并将运行时间进行平均,得到每个模型检测高光谱图像所需运行时间。结果如表1所示,SVM,LDA 和 ANN 的 运 行 时 间 分别为73.65,1.86和2.58s,综合 比 较,LDA 的 分 类 准 确 率较高且运行时间少,确定 LDA 分类模型为最优模型。

  使用训练的LDA 模型对高光谱图像进行像素等级分类,分类效果如图10所示。可看出棉花识别效果较好;部分棉叶和棉枝不能有效识别;地膜虽然被检 测 出 来,但 因 地 膜 的 光谱曲线在大部分波段上和棉花相似,亮 度 较 棉 花 低,所 以 部分棉花中表面不平导致的亮度较低的区域被识别为地膜。上述分类效果与杂质光谱的分类判别模型结果一致。

  3 结 论

  (1)通过参数优化,建立了三种机采籽棉杂质分类判别模型。其中 LDA 的分 类 准 确 率 较 高,训练集和测试集的准确率分别为86.4%和86.2%。由于棉叶和棉枝的物质成分相似,光谱曲线相似,导致棉叶和棉枝杂质的分类准确率较低。

  (2)对于像素等级杂质检测,该方法能够识别大部分杂质,检测效果明显。LDA 算法需要的时间约为1.86s,少于ANN 的2.58s,且远少于SVM 的73.65s,能够满足实际生产对于检测的需求,因此 LDA 为最佳模型。

  (3)在后续研究中可以基于该方法,增 加 样 本 数 量,选择覆盖范围更大的波段和加入纹理特征,提升棉叶和棉枝的检测效果;并根据光谱图像数据分析提取特征波段,开 发 多光谱成像检测 系 统,实现更高效率的机采籽棉杂质实时检测。