树人论文网一个专业的学术咨询网站!!!
树人论文网

基于加权随机森林的番茄氮元素缺乏分级模型研究

来源: 树人论文网发表时间:2021-09-30
简要:摘要:基于叶面颜色特征建立番茄氮元素缺乏分级模型判别准确率可达 80%以上。夏季定植的番茄叶片表面会覆盖粘质腺毛,粘质腺毛利于番茄吸收水分和营养元素,相同营养液氮离子浓

  摘要:基于叶面颜色特征建立番茄氮元素缺乏分级模型判别准确率可达 80%以上。夏季定植的番茄叶片表面会覆盖粘质腺毛,粘质腺毛利于番茄吸收水分和营养元素,相同营养液氮离子浓度下叶片黄化过程异于未覆盖粘质腺毛的叶片。故仅基于叶面颜色特征建立分级模型,其准确率降至 65%。覆盖粘质腺毛番茄其叶片周长和叶面积两个形状特征均小于未覆盖粘质腺毛的番茄叶片,本文将番茄叶片两个形状特征结合原有叶面颜色特征共同作为模型输入,建立新的番茄氮元素缺乏分级模型。搭建图像采集系统,该图像采集单元由树莓派和其相机模块构建,使用 WiFi 或 4G 网络完成智能手机、图像采集单元、本地计算机之间无线数据传输。智能手机通过 Web 界面可远程控制采集图像并将图像传输到云平台存储。本地计算机对图像进行预处理提取叶片形状、颜色特征后输入模型进行预测,并输出预测结果。试验结果表明,图像采集系统春季和夏季平均温度在 19.7~28.3℃范围内,光照在 1125~9543lx 范围内均可正常使用,采集的图像经预处理分割后降低了受环境光线影响。使用优化后的加权随机森林模型,基于形状特征和颜色特征相结合的叶片氮元素缺乏分级判别准确率可达 83%。

基于加权随机森林的番茄氮元素缺乏分级模型研究

  李莉; 蓝天; 赵奇慧; 孟繁佳, 农业机械学报 发表时间:2021-09-29

  关键词:番茄;氮元素;形状特征;颜色特征;判别分级;加权随机森林;贝叶斯优化

  0 引言

  基质栽培番茄其氮元素含量直接影响番茄生长状况和果实品质。番茄苗期、花期、果期3个时期的正常生长对氮元素含量有不同的需求[1-4]。其中花期最容易产生氮元素缺乏现象,原因是这一阶段既需要完成第一花序开花坐果,又需要保证植株茎干和叶片生长以及第二、第三花序开花,因此需要在花期进行实时监测以保障番茄的正常生长 [5-10] 。

  通过叶绿素含量、叶片光谱数据等参数结合叶片颜色、形状特征能很好地判别氮元素缺乏程度[11-18]。胡昊等[19] 利用手持式 GreenSeeker 型作物传感器和 SPAD-502 型叶绿素仪分析不同氮处理条件下冬小麦叶片 SPAD 和冠层 NDVI,结果表明三者相关系数均很高。郑一力等[20] 采用波段为 350~2500 nm 的地物光谱仪获取金镶玉竹叶片光谱数据,对比 4 种估测模型校验,结果表明在光谱反射率的对数一阶微分变化下,采用拓扑结构为 6-10-1 的基于主成分分析的 BP 神经网络估测模型,校验环节决定系数为 0.838,均方根误差为 0.0452。王远等[21] 利用数码相机依据水稻数字图像绿色通道和红色通道差值设定阈值对图像进行分割,分割后图像中提取的红光标准化 NRI 与 SPAD 值、叶片含氮量相关系数达到-0.87 和-0.65。基于光谱学判断植物组织氮含量设备价格昂贵,测量过程易受环境光线因素制约。

  CHEN 等[22] 基于静态扫描技术获取稻米叶片和鞘的图像颜色和形状特征通过支持向量机(SVM)鉴定水稻氮含量 4 个不同生长阶段准确率分别为 94%、98%、96%和 100%,使用不同年份数据进行验证,识别准确率分别为 88%、98%、90%和 100%。提取的形状特征虽然增加了识别准确率,但是采集过程过于繁琐且仅能在实验室环境采集。

  上述研究只关注信息获取和处理本身,并未考虑叶片本身生理特征对图像信息的影响。经研究发现,春季育苗、夏季种植的番茄幼苗半数以上会在表面覆盖有粘质腺毛。若采取原有的颜色特征建模判别会降低模型准确率。本文以温室番茄叶片为研究对象,基于形状特征和颜色特征采用随机森林机器学习算法,开展番茄叶片氮含量差异分析,建立氮含量缺乏分级预测模型,以指导科学施肥。

  1 材料与方法

  1.1 数据采集

  2020年3-7月在中国农业大学精细农业研究中心的日光温室进行了番茄氮元素缺乏程度判别试验。所用氮肥为四水合硝酸钙和硝酸钾。采集不同氮离子浓度施肥策略下番茄叶片表面 RGB 图像和 SPAD-502 型叶绿素仪测定的番茄叶片氮含量。

  灌溉系统采用中国农业大学日光温室封 闭 式 栽 培 水 肥 智 能 调 控 系 统 。 利 用 JZH-0xx 型集成传感器采集温室内光照强度、空气相对湿度、空气温度。采集时间为每天 7:00-21:00,采集间隔为 1h。连续采集番茄花期开始前至结束后共 40 d(包含花期 30 d) 环境参数数据。2020 年春季,温室内部平均温度保持在 23.7±0.3( 白 天 )/19.7±0.1( 夜晚)℃,相对湿度为 52%。2020 年夏季,温室 保 持 平 均 温 度 为 28.3±0.2( 白天)/23.5±0.4(夜晚)℃,相对湿度为 69%。白天光照强度在 1125lx-9543lx 范围内变化。

  1.2 试验方案设计

  番茄幼苗高度为 15~20cm(包含根系长度),两个品种幼苗区别是植株表面是否有粘质腺毛(白色绒毛)。盆栽容量为 7L,基质配比按体积分数分别为 20%珍珠岩、20%蛭石、60%泥炭。

  当植株生长至第一花序开花即番茄花期开始时,将所有植株分成 3 个实验组,使用 70 mg/L、140 mg/L、210 mg/L 浓度营养溶液分别对 3 组内植株进行施肥灌溉。浓度 210 mg/L 氮营养溶液配方见表 1。每周在固定日期用新配置肥料溶液对番茄植株施肥,一周其余的时间每隔 1 d 用去离子水灌溉保证植株水分供需。依据以上施肥灌溉策略,可保证不同实验组番茄植株中组织氮水平具备明显差异。

  1.3 RGB 图像采集

  现场图像数据采集使用树莓派 3b+微处理器,树莓派官方 8×106像素摄像模块,树莓派锂电池扩展模块以及塑料树莓派外壳共同组成 RGB 图像采集单元。通过直径 41mm 的圆形云台和三脚架调节图像采集单元的高度和角度。树莓派上安装Apache Web 服务器用来为 RPi-Cam-Web-Interface 提供服务,使其通过唯一的地址连接树莓派。智能手机使用 RPi-Cam-Web-Interface 控制树莓派捕获番茄植株 RGB 彩色图像。智能手机与图像采集单元和本地计算机使用 WiFi 或 4G 网络进行交互连接。图像获取系统结构如图 1 所示。

  为了尽量消除环境光线对 RGB 彩色图像的影响,在番茄开花期 30 d 内固定每日 11:00 采集不同氮浓度处理下番茄主干中部枝杈上生长的叶片图像。采集图像中至少包括该枝杈最前端叶片在内 6 片叶子。调节三脚架高度保证 RGB 图像采集摄像头清晰聚焦,拍摄位置保持在植物斜侧方距目标叶片约 0.3m处,图像分辨率为 3648×2736 像素。为了准确提取叶片形状特征,拍摄时需要使用厚度为 3mm 长方形透明亚克力板置于叶片背面使叶片尽可能平整展开。采集的图像以特定文件名传输至云平台存储。

  1.4 叶片氮含量测定

  整 个 番 茄 花 期 , 每 日 16:00 使 用 SPAD-502 型叶绿素仪分别对番茄植株的目标叶片进行叶绿素含量测定。每棵植株至少选取主干中部的两个枝杈上各 5 个叶片,总计 10 个叶片进行采集。重复测量每个叶片 3 次取平均值以降低因仪器操作带来的误差,最大程度确保叶绿素含量准确测量。

  1.5 图像预处理

  分割植物前需要消除采集图像时因阴天、多云、少云等天气原因造成环境光线过暗对图像亮度的影响,使用直方图均衡化或对数变化方法只提高图像亮度,不改变图像色度。从背景中分割植物分为 2 个步骤,① 使用 OpenCV 中的 TenenGrad 评价函数实现图像分割。①使用“2g-r-b”算法[23] 得到背景为黑色仅含有目标叶片的 RGB 彩色图像。图像预处理流程如图 2 所示。

  1.6 模型输入特征提取

  覆盖粘质腺毛的番茄叶片单个叶面积、周长均小于未覆盖粘质腺毛的番茄叶片,并且前者叶片在整个花期因组织氮素缺乏产生颜色变化程度明显低于后者。若将二者提取出的输入特征共同放入判别模型会极大降低模型准确率,因此需要在输入特征中添加形状特征(叶面积和叶片周长)进行种类区分。此处选取单个枝叶(尖端叶片)提取形状特征。形状特征提取分为 4 个步骤:①高斯模糊消除图像中的噪点。①二值化得到叶片对象。①形态学闭操作(先腐蚀后膨胀)填充叶片中间的小洞。①RETR_EXTERNAL 函数确定叶片轮廓后 contourArea 函数和 arcLength 函数分别计算叶片像素面积和像素周长。

  颜色特征通过 RGB 彩色图像获取,分别使用 minMaxLoc 函数、mean 函数、 meanStdDev 函数获得 B、G、R 三通道各自最大值、平均值、标准差共 9 个变量颜色特征作为模型输入特征参数。获取叶片纹理特征同样仅使用尖端叶片,过程见图 3。

  2 结果与分析

  2.1 数据集

  番茄花期图像采集时间为 2020 年 3 月 14 日—4 月 15 日(共 32 d);夏季番茄花期图像采集时间为 2020 年 5 月 15 日—6 月 17 日(共 32 d)。整个番茄花期共获得 576 幅不同氮元素浓度的 RGB 彩色图像。其中覆盖粘质腺毛和未覆盖粘质腺毛番茄植株图像分别为 192 幅和 384 幅,包含 3 个不同营养液离子梯度。整个图像采集周期内不同营养液离子梯度下两种番茄叶片图像如图4所示。

  由图 4 可知,营养溶液中所含氮元素减少,叶片黄化过程加快,反之叶片逐渐变成深绿。同时能够看出植株表面是否覆盖粘质腺毛对其产生的影响。

  2.2 覆盖粘质腺毛对于模型分级准确率的影响

  随机森林属于集成学习的一个重要分支,特点是将各个没有依赖关系的弱学习器 (CART 决策树)并行拟合以提升整体模型分级判别准确率,如图 5 所示。

  对于一个样本,它在含 m 个样本的训练集的随机采样中,每次被采集到的概率为 1/m。不被采集到的概率是 1-1/m。如果 m 次采样都没有被采集到的概率是(1-1/m)m。当 m趋近于无穷大时,(1-1/m)m趋近于 1/e,约等于 0.368。Bagging 每轮随机采样中,数据集中约有 36.8%的数据没有被采样集采集到。

  对于这部分约 36.8%的没有被采样到的数据,称之为袋外数据(Out of Bag, OOB)。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。

  传统随机森林模型每棵决策树投票权重相等,低分级准确率的单棵决策树会影响整个森林分级准确率。解决这一问题的方法是提前确定每棵树的权重,投票时每棵树均乘以对应权重。获得对应权重需要将训练样本分为两部分,即训练集和测试集。训练完成后对每棵树进行测试,计算其分类正确率。