树人论文网一个专业的学术咨询网站!!!
树人论文网

基于两级分段式算法的卷积神经网络的浮游有孔虫自动鉴定

来源: 树人论文网发表时间:2021-11-24
简要:提要 有孔虫个体微小、数量众多、地理分布广、演化迅速, 是记录海洋沉积环境的重要载体, 在海相生物地层划分和对比中具有十分重要的作用。因有孔虫属种众多, 传统的属种鉴定需要经验丰

  提要 有孔虫个体微小、数量众多、地理分布广、演化迅速, 是记录海洋沉积环境的重要载体, 在海相生物地层划分和对比中具有十分重要的作用。因有孔虫属种众多, 传统的属种鉴定需要经验丰富的专业人员进行人工鉴定且耗时较长, 此外人工鉴定古生物面临人才匮乏和工作量大等问题。卷积神经网络在计算机视觉领域的应用可较好的解决上述问题。利用古生物专家对中新世浮游有孔虫化石标注为指导, 根据有孔虫化石不同方向的视角分类, 结合卷积神经网络算法, 开发了有孔虫化石图像识别系统。研究发现, 通过有孔虫化石腹视、缘视和背视角度分类, 采取两级分段式鉴定算法对中新世浮游有孔虫属一级进行识别, 属一级鉴定准确率达到 82%左右。

  关键词 自动鉴定 卷积神经网络 浮游有孔虫 古环境 中新世

基于两级分段式算法的卷积神经网络的浮游有孔虫自动鉴定

  熊连桥; 李建平; 谢晓军; 岳翔; 呼和; 方培岳; 白海强; 张东, 古生物学报 发表时间:2021-11-24

  1 前 言

  古生物记录着地层形成的年龄、气候、地理和地貌等关键信息,在判断生油母质、油气生成和保存时代以及沉积环境分析中扮演重要角色。准确识别古生物有利于确定地层年龄, 识别古环境。目前化石鉴定的主要方法是专业人员通过观察标本的外部形态和内部结构, 查找文献、工具书、化石图册等相关研究资料, 比照图版并结合自身经验, 鉴定化石的属种。但随着古生物学研究和油气勘探需求的快速发展, 人工鉴定化石效率低下等问题日渐凸显: 1)古生物样品繁多, 鉴定效率低下; 2)专业的古生物人才储备不足; 3)存在人为的鉴定错误等问题(殷鸿福, 1994; 沙金庚, 2006; 夏菁等, 2013)。论文选取在中国近海油气勘探中应用广泛的浮游有孔虫化石为研究对象, 以中新统为目标层位, 在古生物专家鉴定的基础上, 利用基于两级分段式算法的神经网络助力古生物研究数字化、智能化, 减轻古生物鉴定人员的工作量。

  2 化石自动鉴定研究现状

  关于生物自动鉴定系统, 较为成功并获得了广 泛 商 业 应 用 的 是 细 菌 的 自 动 鉴 定 系 统 ——Biolog Microstation (冯瑞华等, 2000)。它利用细菌的代谢指纹图谱来对细菌进行自动鉴定。在古生物研究方面, 有学者报道了珊瑚和颗石藻自动鉴定系统。张松林和严幼因(1995)通过收集大量的珊瑚化石资料, 建立珊瑚特征检索表, 将鉴定特征数值化, 并通过聚类分析实现自动鉴定, 研制了床板珊瑚的自动鉴定系统。颗石藻自动鉴定 系 统 SYRACO (Systeme de Reconnaissance Automatique de Coccolithes)是由法国学者开发的 (Dollfus and Beaufort, 1999), 并 不 断 完 善 (Beaufort and Dollfus, 2004; Beaufort et al., 2014)。该系统通过人工智能神经网络自动识别颗石藻属种, 并统计颗石藻数量。苏翔和刘传联(2008) 利用该系统, 对南海西部 2901 柱状样中的颗石藻进行自动鉴定, 并与专家鉴定结果相对比, 获得了较好的一致性。经过训练的 SYRACO 系统可以鉴定第四纪以来 14 个主要颗石藻种类, 并进行定量统计。

  20 世纪 80–90 年代, 郝诒纯等(1989)和徐涵秋、郭雯(1990)等学者在国内率先开展了计算机对古生物的鉴定研究工作; Liu 等(1994)利用专家知识系统开展了浮游有孔虫自动分类研究。 Ranaweera 等(2009)利用图像映射进行标准化, 使用极大团算法分类提出了对有孔虫的半自动鉴定方法。21 世纪, 随着深度学习理论的提出和计算机设备的发展, 卷积神经网络算法得到快速发展, 尤其在计算机视觉识别领域取得了显著成果(Gu et al., 2018); VGG16 算法在有孔虫图像识别的多种算法中, 表现最好(Zhong et al., 2017)。基于机器学习的人工神经网络技术鉴定古生物成为未来的发展趋势(夏菁等, 2013)。

  开展机器学习需要大量的数据输入。目前, 国内尚无相关科研机构具备齐全的中新世浮游有孔虫化石图像数据库。同时, 大数据、深度学习需要专业的古生物专家、专业研究设备进行大量标注。有学者利用卷积神经网络算法对现代有孔虫图像进行了识别(Hsiang et al., 2019), 但针对化石的鉴定研究工作开展较少。有孔虫种类繁多, 关于有孔虫化石图像自动鉴定研究工作正在逐步开展(岳翔等, 2019)。实现有孔虫化石自动鉴定的前提和基础则是构建一个符合科学规范的有孔虫化石图像数据库。只有优先完成这个数据库的构建, 才可以为人工智能深度学习提供符合科学规范的大数据, 进而实现有孔虫化石的自动鉴定。为提高有孔虫化石鉴定效率, 避免人工鉴定造成的误差, 迫切需要开展人工智能有孔虫图像识别研究工作。

  3 基于两级分段式的 CNN 算法

  深度学习是一组复杂的机器学习算法的统称, 其网络结构是以神经网络为基础, 增加多层卷积层和池化层; 所谓“深度”是指其隐藏层的个数非常多(Dong and Li, 2011)。深度学习在计算机视觉方 面 取 得 了 巨 大 的 成 功 。 卷 积 神 经 网 络 (Convolutional Neural Network, 简称 CNN)是深度学习的一种重要算法。卷积神经网络是在 BP 神经网络的改进, 与 BP 类似, 采用了前向传播计算输出值, 反向传播调整权重和偏置(周飞燕等, 2017)。深度学习应用的一般步骤包括: 准备训练样本、数据处理、模型训练与评估、模型预测, 详细步骤见下文。

  3. 1 图像数据库建立

  首先从文献资料中收集有孔虫图像作为训练样本。部分类别的有孔虫化石, 文献呈现的图像较少, 则需要重新拍摄图像。研究人员可根据从地层中分析获得的有孔虫化石标本, 拍摄扫描电镜图像。对收集的有孔虫图像进行增强及预处理, 其中, 数据预处理包括原始图像(图 1-A) 背景色统一、规格统一、剔除无效区域、调节图像亮度(图 1-B); 数据增强是利用图像(图 1-C)的旋转(图 1-D)、翻转(图 1-E)等操作扩大样本数量; 通过以上操作保证有孔虫识别特征清晰。每一张图像由专业人员进行鉴定, 指明有孔虫属种鉴定依据, 总结属种分类方法, 编制分类规则。

  本研究选取了中新世浮游有孔虫扫描电镜图像 3600张(附表1), 涵盖典型有孔虫种类36属95种, 占比 54%, 可对地质分析需求提供较大参考。对 3600 张图像随机选取 30%作为验证集。经鉴定, 36 属浮游有孔虫生长于正常盐度水体, 有孔虫生长于开放大洋至混合层水体环境, 多见于低纬度热带至温带地区。

  3. 2 两级分段式 CNN 算法效果对比

  卷积神经网络(CNN)算法是主要用于图像分类的深度学习模型, 在 BP 神经网络的基础上添加卷积层和池化层, 卷积神经网络模型应用流程如图 2 所示。卷积层, 即用卷积核对矩阵进行滤波, 目的是聚焦矩阵的局部特征, 随着层数加深得到抽象度更高的特征; 池化层可以有效缩小矩阵的尺寸, 显著减少网络中参数的个数, 也有防止过拟合的作用(周飞燕等, 2017)。

  在不同级别的古生物鉴定中, 其所要求的特征多寡和主次是不同的。例如有孔虫属一级和种一级的分类标准所用到的特征不同。以新近纪中新世的浮游有孔虫为例, 这一时期出现的浮游有孔虫属一级鉴定特征可以分为以下内容: 壳壁类型、旋卷类型、缘脊、主口孔位置、主口孔装饰、主口孔形状、次生壳、小泡、补充口孔、房室形状和最后一圈房室个数。此外, 有孔虫化石的鉴定特征常常是描述性的, 需要将这一类非数值化的信息转变为计算机可识别的参数信息。因此需要专业人员整理属种分类的规则, 提取鉴定需要的特征, 为人工智能的学习打下基础。

  对所有图像剔除无效区域, 调节图像亮度; 对样品数量较少的图像, 采取图像翻转、旋转等操作扩大样本数量。其次, 根据给出的有孔虫鉴定特征, 发现主要差异在主孔口、壳壁类型等。根据专家经验, 不同视角, 有孔虫图像包含的信息不同。以异样泡口虫(Catapsydrax dissimilis)为例, 腹视角度(图 3-A)具有更多且更为关键的鉴定特征, 如壳壁类型、主口孔位置、脐部具有小泡以及 4 个板下辅助口孔、等, 而背视(图 3-B)和 缘视(图 3-C)角度能识别的鉴定信息较少, 除去和腹视角度共有的鉴定特征外, 异样泡口虫从背视仅能获取其房室发育的早期阶段, 缘视仅可以提供螺旋程度的高低, 但这些特征并不是关键的鉴定特征, 特别是对于属一级来说。因此, 根据有孔虫图像反映的鉴定信息多寡, 可对比传统 CNN 算法(不分视角)和两级分段式算法鉴定效果。

  1) 不分视角进行图像鉴定

  VGG16 是获得 2014年的ImageNet 图像分类挑战赛亚军的模型(陈英义等, 2019), 利用 VGG16 模型对有孔虫化石图像不分视角直接进行鉴定。

  模型设置为: (1)保留 VGG16模型的卷积模块, 去掉全连接层; (2)设置 VGG16 保留模块节点在模型训练时保持不变; (3)模型再加入两层卷积+一层全连接+Softmax, 其中卷积核大小是 3×3, padding 设置为“same”, 激活函数为 Leaky ReLU, 全连接层神经元个数为 256。经过训练, 验证集属一级鉴定准确率为 80%。

  2) 分视角进行图像鉴定

  选取腹视、背视两个角度进行样本创建。样本创建的依据主要是人工判断, 主要特征也是集中在这两个角度。根据腹视模型的鉴定结果, 对容易混淆的属进行合并, 使用腹视角度进行粗分; 再使用背视角度对合并的属进行细分。根据中新世浮游有孔虫属一级识别特征, 首先将特征容易识别的合并为 A组, 其他特征容易混淆的再分别划分组别, 共划分为 7 个组。其中, A 组为容易识别的其他有孔虫属, B–G 等 6 组包含多个属(表 1)。最后通过两级分段式鉴定算法对各组进行图像鉴定(图 4), 得到有孔虫图像的属一级分类结果。

  模型设置: (1)以两个卷积+一个池化作为一个模块, 卷积层的卷积核数分别为 256 和 128, 卷积核大小为 3×3, padding 设置为“same”, 激活函数为 Leaky ReLU, 池化层的 Poolsize 为(2, 2), strides 为(2, 2); (2)以 5 个模块+两层全连接 +Softmax 作为通用卷积网络, 其中全连接层的神经元个数为 256 和 128, 激活函数为 Leaky ReLU。模块之间以输入输出的方式连接, 即上一个模块的输出即为下一个模块的输入, 模型的优化函数设置为 Adamax, 学习率为 0.001, batch size 设置为 32, 迭代 100 次; 经过试验探索, 在当前数据样本规模下, 以 5 个模块组成网络的效果最优(图 5)。经过训练, 模型属一级鉴定准确率能达 82% 左右, 具体每一属的预测准确率见表 2 所示。

  通过实验可以看出分段鉴定算法在合理分组的情况下, 鉴定准确率优于 VGG16 算法的准确率。VGG16 算法适用于大样本的应用场景, 而两级分段式鉴定算法更适用于有孔虫鉴定这类小样本应用场景。两级分段式鉴定算法的思路是分角度鉴定, 根据属的特点选择合适的角度, 用专家经验解决样本数量不足的问题。通过两级分段式自动鉴定技术, 在保证化石鉴定准确率的前提下, 极大提高了鉴定效率, 可为油气勘探及时提供浮游有孔虫含量与古水深的关系(Smith, 1955; van der Zwaan et al., 1990; 李学杰等, 1994), 保障油气勘探的时效性。

  4 结 论

  1) 卷积神经网络能有效识别中新世浮游有孔虫类别。

  2) 采用分视角, 两级分段式鉴定算法能将中新世浮游有孔虫属一级鉴定准确率提高到 82.1%。

  3) 计算机批量自动鉴定的有孔虫属种类别可用于化石组合特征分析, 满足油气勘探阶段对沉积古环境的研究需求。