树人论文网一个专业的学术咨询网站!!!
树人论文网

植物油光谱模式的识别

来源: 树人论文网发表时间:2022-01-18
简要:摘要:可食用植物油的识别与区分是食品安全监测领域中的值得关注的工作内容之一。文章借助衰减全反射傅里叶变换红外光谱分析,获取 8 种植物油样本的数据,而后采用标准正态变换和一

  摘要:可食用植物油的识别与区分是食品安全监测领域中的值得关注的工作内容之一。文章借助衰减全反射傅里叶变换红外光谱分析,获取 8 种植物油样本的数据,而后采用标准正态变换和一阶导数处理来消除背景干扰,使得重叠峰发生分离;其次构建竞争性自适应重加权算法模型对各样本光谱数据进行特征提取,共提取 105 个特征波长点;然后构建长短期记忆神经网络对提取特征波长前后的可食用植物油种类进行预测识别与比较,结果表明,长短期记忆神经网络对提取特征波长前后样本预测识别准确率分别维持在 30%~40%和 80%~90%的区间范围内,模型运行时间分别为 111 min 25 sec 和 1 min 45 sec,这表明在光谱化学模式识别中特征波长的提取是十分有必要的;最后搭建由 Levenberg-Marquardt 算法改进的 BP 神经网络进一步提高植物油分类识别的准确率,总体准确率达到 100%。实验结果较为理想,可为植物油的无损快速检验提供一定的参考与借鉴。

  关键词:红外光谱;可食用植物油;特征提取;机器学习

植物油光谱模式的识别

  接昭玮; 刘卓; 王继芬; 古锟山; 王之宇 中国油脂 2022-01-18

  1 引 言

  随着科技的进步,食品制造业迅猛发展,在给人们带来便捷的同时,某些不法分子为牟取暴利,生产出来的产品不符合食品安全要求,导致食品安全风险隐患日益凸显[1]。可食用植物油是我们日常生活中必不可少的烹饪用品,也是人体必需营养物质的主要来源之一[2]。近年来,不少不法分子为谋取暴利对可食用植物油的原料和制作工艺“投机取巧”,将非食用油冒充大豆油等可食用油对外销售,造成了社会重大食品安全隐患。因此,对案发现场提取的可食用植物油样本开展无损检测工作是食品安全中的一个重要环节。

  分子光谱分析技术是自 20 世纪 90 年代以来发展最快的分析技术,以其高效快速、制样简单以及无污染等独特的分析优点被广泛应用于食品、油脂等的品质分析检测[3-4]。当前,可食用植物油的仪器检测方法主要有气相色谱-离子迁移谱、紫外光谱技术和 X 射线检测技术等,虽然这些方法检测性好,仪器测量精密度高,但存在仪器造价昂贵、处理步骤多、耗费时间长、检测效率低等缺陷,且试剂消耗大、易污染环境,不适合于样品快速检测[5]。红外光谱与其它光谱法相比,以其特征性好和适用样品范围广等特点适合对有机物的定性分析,在法庭科学领域,红外光谱被广泛用于微量物证的鉴别。王延等人[6]利用红外光谱对交通事故案件中受污染的纤维、油漆等物证进行同一认定,为交通事故案件提供证据支持和参考;陈云[7]等人研究发现红外光谱技术可广泛应用于对作案工具上残留的涂料附着物、碎尸包裹物上粘附的涂料等微量物证进行同一认定,从而为侦查工作提供方向。

  深度学习是机器在已知经验基础上建立一个自动学习机,学习机能够在这些经验中获得新的知识,以解决新的问题。当前,深度学习在环境化学[8-9]、材料分析[10-11]、法庭科学[12-13]等领域均有应用。而将深度学习用于开展对光谱信息数据的挖掘,实现对样本检验结果的信息化和可视化是当下分析测试研究领域的热点之一。

  鉴于此,本文提出将红外光谱结合机器学习对油进行分类识别处理。本文采用衰减全反射傅里叶变换红外光谱分析技术,获取 8 种常见的可食用植物油光谱数据,构建竞争性自适应重加权算法提取各样本的光谱数据特征,同时构建长短期记忆神经网络、Levenberg-Marquardt 算法改进的误差逆传播算法训练的多层前馈网络神经网络开展对不同植物油的快速无损分类识别工作。这为公安机关在搜集涉及可食用植物油的有毒有害食品案件和生产、销售伪劣产品案件方面提供侦查方向和完整的证据链。

  2 实 验 2.1 样品与设备

  结合实际案件,从市场上共收集 8 种共计 160 个常见的可食用植物油样本,可食用植物油样本统计表见表 1。

  实验采用 Nicolet is10 型傅里叶变换红外光谱仪(美国 Thermo Fisher Scientific 公司),设备及参数的基本信息见表 2。

  2.2 光谱数据预处理

  8 种可食用植物油的原始光谱如图 1 所示。为确保实验数据分析的准确性,排除仪器放置环境以及机器本身产生的噪声干扰,故需要对所测得的光谱数据进行平滑降噪处理;为消除固体颗粒大小、表面散射以及光程变化对漫反射光谱影响,故需要对测得的光谱进行标准正态变换(SNV, Standard normal variate)处理;为有效消除基线和其他背景干扰,使得重叠峰发生分离,从而提高检测的分辨率和灵敏度,故需要对在 SNV 变换后的光谱进行一阶导处理。

  将分别经过平滑、SNV、SNV+DT 预处理后得到的光谱图与原始光谱图进行对比,可食用植物油预处理光谱图如图 2 所示。对光谱进行预处理的目的在于去除噪声的同时能够尽可能地多保留原光谱的真实信息,在对原有光谱进行平滑、标准正态变换和一阶导处理后,消除了由于固体颗粒大小、表面散射以及光程变化对漫反射光谱的影响,不仅增强了光谱的吸收特性,还减少了曲线的离散性,能够有效提高谱图的分辨率和灵敏度。

  3 结果与讨论 3.1 各样本光谱数据特征提取 3.1.1 CARS 算法

  竞争性自适应重加权算法(CARS, competitive adaptive reweighted sampling)是基于自适应重加权采样(ARS, adaptive reweighted sampling)技术,从而选择出 PLS 模型中回归系数绝对值大的波长点,利用交互验证选出均方标准误差(RMSECV)值最低的子集,去掉权重小的波长点,最终有效寻出最优变量组合[14]。最初经过 OMNIC 软件导出的样本光谱数据共计 556160 个,如果直接对原有数据集进行光谱分析,从机器运行时间的角度来说是一件十分耗时的事情,在分类效果和准确率方面,由于庞大的数据集使机器难以找到显示解,从而导致分类准确率低下。而 CARS 算法可以有效解决这一难题,通过寻找数据集中回归系数绝对值最大的波长点,选出 RMSECV 值最低的子集,最终有效寻出特征光谱点组合。CARS 算法被广泛应用于食品安全领域光谱特征波长的选取,吴建飞[15]在对冬小麦叶片含水量进行快速无损检测研究时发现,基于 CARS 算法筛选的波段组合压缩率达 98%以上,所建模型中最高预测决定系数为 0.8441;王海龙[16]等人在检测番茄叶片灰霉病的方面,发现基于 CARS 算法建立的 SVM 模型对于识别真菌损害的番茄叶片的准确率高达 100%。以上结果说明了 CARS 算法对于食品安全领域检测的实用性和有效性。

  3.1.2 特征波长提取结果

  本文利用 CARS 算法,采用十折交叉验证,将采样的总次数设置为 50 次。特征波长优选过程,可食用植物油光谱变量筛选图如图 3 所示,由图 3(a)可知,特征波长采样的数量随着采样数量次数的增加而减少;图 3(b)表示十折交互验证均方标准差(RMSECV)值的变化趋势,图 3(c)表示每个变量回归系数的路径变化[17]。将光谱数据连续运行 23 次,取 23 次结果中频率最多的波长作为真实特征波长。

  提取出八种植物油的特征波长,光谱特征提取结果如图 4 所示。

  通过 CARS 模型的建立与提取,所得到的可食用植物油特征波长共计 105 个,特征波长汇。

  3.2 关于特征提取的必要性研究

  长短记忆神经网络(LSTM, Long short-term memory)是在循环神经网络(RNN , Rerrent Neural Network)基础上研发的一种改进式循环神经网络,LSTM 神经网络不仅可以有效处理序列数据,而且还可以选择性的存储信息,从而弥补了传统 RNN 神经网络在解决长时依赖问题中的局限性。当预测点与依赖的相关信息距离比较远的时候,LSTM 神经网络可以有效学习到所对应的相关信息。LSTM 神经网络的结构图如图 5 所示。

  LSTM 神经网络的核心在于图 5 中间的矩形方框,称之为记忆块(memory block),方框内上方的水平线,被称为单元状态(cell state),它就像一个传送带,可以控制信息传递给下一时刻。LSTM 里常用的激活函数有两个,一个是 tanh,一个是 sigmoid,两个函数来决定经过记忆块的信息内容,从而达到筛选有效信息的目的。

  通过矩阵实验室(MATLAB)搭建 LSTM 神经网络,将 8 种可食用植物油的光谱数据导入模型中,LSTM 神经网络对于未提取特征波长的 8 种可食用植物油分类识别结果图如图 6 所示, LSTM 神经网络对于提取特征波长的 8 种可食用植物油分类识别结果图如图 7 所示。

  由图 6 可知,在未提取特征波长前 LSTM 模型对于实验中可食用植物油的分类识别准确率维持在 30%~40%的区间内,模型运算时间长达 111 min 25 sec。结合图 7,发现提取特征波长后 LSTM 模型对于各样本的分类识别准确率提升至 80%~90%的区间内,模型运算时间仅为 1 min 45 sec。这表明,通过特征提取算法可以有效提高模型的分类识别准确率以及缩短模型的运行时间,降低模型的计算复杂度。郭城[18]曾借助无信息变量消除法(UVE, uniformative variable elimination)、遗传算法(GA, genetic algorithm)对蜂王浆水溶性蛋白质和总糖含量进行特征波长提取,结果发现 RMSEP 值都在 1 以上,导致模型过拟合,预测相关性变差。与 CARS 算法进行样本特征波长提取相比,最终所得模型预测的准确性更高,稳健性更好。

  分析认为,LSTM 在序列建模问题上有一定优势,具有长时记忆功能,实现起来简单。同时也解决了长序列训练过程中存在的梯度消失和梯度爆炸的问题。但是,它在对样本种类预测识别中稳定性不够强,这可能会对模型的准确率造成负面影响。郑毅[19]等人曾借助胶囊式 LSTM网络对人体姿态检测开展了模式识别工作,结果发现机器的最高识别正确率达到 95.42%,但是也发现 LSTM 神经网络存在一步依赖性和时序依赖性等不足。因此,本文探讨构建一种改进式神经网络用以提升模型识别的准确率与稳定性。

  3.3 基于 Levenberg-Marquardt 算法改进的 BP 神经网络模型

  Levenberg-Marquardt 算法(简称 LM 算法)是最优化算法中的一种,是以最广泛的非线性最小二乘算法为基础,利用梯度求最大(小)值的方法。利用 LM 算法改进 BP 神经网络,可有效克服传统 BP 神经网络中的缺陷,从而提高机器学习分类识别的准确率。模型建立共分为 7 步:

  (1)设置训练误差允许值