树人论文网一个专业的学术咨询网站!!!
树人论文网

基于刑事Electra的编-解码关系抽取模型

来源: 树人论文网发表时间:2021-07-28
简要:摘 要: 针对司法领域关系抽取任务中模型对句子上下文理解不充分、重叠关系识别能力弱的问题,提出了一种基于刑事 Electra(CriElectra)的编-解码关系抽取模型。首先参考中文 Electra 的训

  摘 要: 针对司法领域关系抽取任务中模型对句子上下文理解不充分、重叠关系识别能力弱的问题,提出了一种基于刑事 Electra(CriElectra)的编-解码关系抽取模型。首先参考中文 Electra 的训练方法,在一百万份刑事数据集上训练得到了 CriElectra,然后在双向长短期记忆网络(BiLSTM)模型上加入 CriElectra 的词特征进行司法文本的特征提取,最后通过胶囊网络(CapsNet)对特征进行矢量聚类,实现实体间的关系抽取。在自构建的故意伤害罪关系数据集上,与通用 Electra 等预训练语言模型相比,CriElectra 在司法文本上的重训过程使得学习到的词向量蕴含更丰富的领域信息,F1 值提升 1.93%;与基于池化聚类的模型相比,胶囊网络通过矢量运算能够有效防止空间信息丢失、提高重叠关系的识别能力,使得 F1 值提升 3.53%。

基于刑事Electra的编-解码关系抽取模型

  本文源自王小鹏; 孙媛媛; 林鸿飞, 计算机应用 发表时间:2021-07-28

  关键词: 司法领域;关系抽取;预训练语言模型;双向长短期记忆网络;胶囊网络

  0 引言

  随着智慧司法建设的推进,如何帮助办案人员从海量的犯罪文书中获取有用的信息成为了一项非常有意义的研究工作,司法领域的自然语言处理技术也因此受到了研究者的广泛关注和重视,特别是对海量司法文书进行智能分析和处理已成为司法人工智能研究的重要内容。关系抽取作为信息挖掘的基础性工作,不仅可实现司法信息的获取,还在司法问答、刑期预判和司法知识图谱构建等任务中有重要应用。

  司法文书,是指司法机关制作的具有司法效力或司法意义的文书[1]。司法关系抽取则是在已知司法文书中具有司法属性的名词或短语实体基础上,识别出实体之间的关系事实,据此构造三元组,如:[张三,攻击关系,李四], “张三”“李四”是司法实体,他们之间的关系事实是攻击关系。相比较于通用领域的关系抽取研究,司法领域关系抽取面临以下问题和挑战:

  通用领域预训练语言模型在司法领域的应用存在一定局限性。首先,司法文本是按照严格的模板进行撰写的,相较于通用语料库(如:维基百科语料),在文本结构上存在较大差异,此外,通用语料库和司法文本语料库的词分布并不相同,因此很难确保通用领域预训练语言模型在司法任务上的性能表现。

  司法文书中,存在许多同一实体对应多个关系的情况,这将严重混淆关系提取。如“被告人张三和被告人李四系邻居。”描述中“张三”和“李四”从司法层次讲是共犯关系,在社会层次中他们之间是邻里关系。当数据集中关系重叠较多时,模型就很难清楚地识别出所有的关系标签。现有关系抽取模型使用的 MaxPooling[2]和词级注意 [3]等方法虽然可以很好的将低层级语义合并生成高层级关系表示向量,使得模型在单标签关系识别上表现优异,但对于多重关系抽取,这种高层次的关系向量却很难准确地表达标签特征,进而影响性能。

  针 对 以 上 问 题 , 本 文 提 出 了 一 种 基 于 刑 事 Electra(Criminal-Efficiently learning an encoder that classifies token replacements accurately, CriElectra)的编、解码关系抽取模型,解码器由双向长短期记忆网络[4](Bidirectional Long Short-Term Memory, BiLSTM)和胶囊网络[5](Capsule Network, CapsNet) 构 成 , 即 : CriElectra-BiLSTM-CapsNet , 简 称 CELCN。首先参考中文 Electra[6]的训练方法,在一百多万份刑事案件数据集上训练得到了 CriElectra,然后在双向长短期记忆网络上加入 CriElectra 的词特征进行中文文本的特征提取。最后利用胶囊网络对特征信息进行矢量聚类,实现实体间的关系抽取。本文在自行设计并构建的故意伤害罪关系抽取数据集上进行实验,模型的 F1 值可以达到 79.88%,相较于其它基线方法,CELCN 可以取得非常不错的效果。本文主要有以下三个贡献点:

  1) 基于司法业务需求和罪名特点,提出了一种侧重于司法属性和社会属性的关系定义方案,并构建了故意伤害罪的关系抽取数据集;

  2) 提出了基于百万刑事数据的预训练语言模型 CriElectra,该预训练语言模型能够更有效的学习表示司法领域文书中的语义信息;

  3) 基于胶囊网络进行高维矢量空间的特征聚类,能够有效的解决数据集中多标签关系的识别任务。

  1 相关研究

  1.1 关系抽取

  关系抽取一般可分为基于机器学习的方法和深度学习的方法。基于机器学习的方法是以自然语言处理技术(Natural Language Processing, NLP)中的统计学语言模型为基础,从分类的角度研究关系抽取,即根据各种语言学特征识别实体对于每个标签的可能性,然后再通过基于统计模型的分类器进行关系的分类[7],这种方法可按照有无标注好的数据集分为有监督、无监督和弱监督三种方法,其中有监督的方法是指所有数据集都是通过人工标注形成的,该方法具有很高的准确性,但过分依赖标注的数据集,成本较大。无监督方法不需要人工语料作为支撑,能自动识别文本中三元组,因此在处理大规模数据语料是具有其他方法无法比拟的优势,但缺少人工标注导致其准确率和召回率较低。弱监督的方法是指根据少量已标注好的语料三元组,在未标注的语料中发现新的三元组,进而形成大规模的语料集,但由于噪声等问题并未完全解决,其性能也受到了限制。基于深度学习关系抽取的方法,主要包括基于卷积神经网络(Convolutional Neural Networks, CNN)[8]的方法、基于循环神经网络(Recurrent Neural Network, RNN)[9]的方法以及二者相结合的方法[10]。在此基础上,Lu 等[11]引入 PCNN(Piecewise Convolutional Neural Networks)对传统卷积神经网络的池化层进行改进,并使用句子级选择注意力机制减轻错误标签的影响,最终 F1 值的结果比基于多示例学习的方法高了 5%。Kiyavas 等[12]引入词级别的注意力机制并结合 BiLSTM 对文本进行建模从而实现结果的提升。Luo 等[13]结合双向 GRU(Gate Recurrent Unit)和 PCNN 模型方法实现对实体结构等信息的提取,在 NYT(New York Times)数据集上表现优异。

  1.2 预训练语言模型

  近年来,针对预训练语言模型的研究发展迅猛,预训练语言模型是一种动态词向量表示方法,不同于静态词向量,该词向量基于上下文信息表示单词的语义知识,能够很好的解决一词多义的问题。在预训练语言模型研究中,Peters 等[14] 提出的预训练语言模型 ELMo(Embedding from Language Modeols),利用 BiLSTM 不仅解决了长距离信息丢失问题,还可对词进行复杂特征(如句法和语义)和变化的语言语境下进行建模。2018 年,Devlin 等[15]提出自编码语言模型 Bert(Bidirectional Encoder Representation from Transformers),不同于 GPT[16] (Generative Pre-Training)中单向的语义知识学习,它通过 Transformer 实现了对文本的双向特征表示,并在 11 项自然语言处理任务中取得了最佳成绩。2019 年,Yang 等[17]提出了自回归预训练模型 XLNet,在多项自然语言处理任务中获得了显著的提升。在具体的任务应用中,李妮等[18]、王子牛等[19]、尹学振等[20]、王月等[21]采用基于 Bert 的模型分别对通用领域、军事领域、警情领域命名实体的识别进行了研究,实验结果均有不同程度提高。但随着预训练语言模型的进一步发展,研究者发现由于文本结构、词分布的差异,开放领域的预训练模型在特定领域表现一般,于是 Lee 等[22] 提出了生物医学领域的 BioBert(Biomedical Bert),实验结果表明,BioBert 的 F1 值比 Bert 高了 2.8%,此外,2019 年清华大学公开了基于百万刑事数据集和百万民事数据集的刑事 Bert 和民事 Bert,从其公布的结果看,这两种模型相较于通用 Bert 可以在司法领域任务上可实现快速的收敛。因此,特定领域语言模型的研究逐渐成为大家研究和探讨的热点。

  1.3 胶囊网络

  为了改善 CNN 和 RNN 在特征学习过程中信息丢失问题,Hinton 等[23]首次提出了可自动学习部分与整体之间关系的胶囊网络。2017 年 Sabour 等[5]基于胶囊网络进一步提出一种可识别高度重叠数字的动态路由算法,该胶囊网络算法在低层特征到高层特征的聚类过程中,不仅关注特征存在的可能性,还关注特征的空间分布信息,使模型获取的信息更加全面,因此在图像识别任务上取得了非常不错的效果。2018 年Hinton等[24]提出了一种基于EM (Expectation Maximization) 算法的胶囊网络,该方法将一维向量胶囊改进为二维向量胶囊,使得胶囊可以表示更多的特征信息。2018 年 Zhang 等[25] 将胶囊网络引入关系抽取任务中,主要进行了两部分的工作,首先在动态路由算法引进注意力值,其次,在边界损失函数中设置了可学习阈值参数,从而优化了整个算法模型,在多标签关系抽取数据集 NYT-10 上,F1 值可以得到 2%的提升,随后,Zhang 等[26]将词注意力机制与动态路由结合,提出了 Att-CapNet (Attentive Capsule Network)模型,进一步改进了胶囊网络,最近,胶囊网络也被逐渐应用于文本分类[27]和疾病分类[28]等 NLP 任务,且都取得了很好的性能表现和提升。

  2 模型结构

  CELCN 算法模型结构如图 1 所示,模型包含三部分,基于 CriElectra 的预训练层,基于 BiLstm 的特征提取层以及基于 CapsNet 的特征聚类层,模型首先通过 CriElectra 得到单个字符的动态语义向量表示,然后把字符向量输入到 BiLSTM 模型,对其序列和层级建模以提取语义和结构特征,然后通过 CapsNet 对特征矩阵进行矢量空间的特征聚类,形成高层胶囊,再根据高层胶囊的模长预测关系标签的可能性。

  2.1 基于 CriElectra 的预训练层

  2.1.1 训练 CriElectra

  Bert 在预训练语言模型领域取得了非常好的成就,但 Bert 采用的 MLM(Mask Language Model)预训练方式并不高效的,它只有 15%的 Token 对参数的更新有用,其他的 85% 不参与梯度更新,除此之外,预训练阶段与特征提取阶段存在信息不匹配,因为下游任务的特征提取阶段,并不会出现 “[Mask]”这个词,而在上游预训练过程中却使用“[Mask]” 替换 Token。于是 Clark 等[6]基于对抗网络设计了预训练模型 Electra,该模型提出了 RTD(Replace Token Detection)预训练任务,与 MLM 方式不同,RTD 的预训练目标是学习区分输入的词是否被替换,尽管引入了“[Mask]”,但是在梯度传播的过程中,模型还需关注有没有发生过替换,因此降低了 “[Mask]”的影响,在很大程度上缓解了 MLM 引起的信息不匹配的负面影响,此外,由于 RTD 在训练过程中全部 Token 会参与参数更新,因此 Electra 训练速度更快,其实验结果还表明,在句对分类、阅读理解等任务上的 Electra 性能要优于 Bert,在自然语言推断、句对分类任务上性能表现相当。

  基于 Electra 训练更快、性能与 Bert 相当等特点,本文基于中文 Electra 提出了 CriElectra,训练数据来源于中国裁判文书网公开的文书数据,首先通过下载获取百万份刑事文书数据,然后通过筛选形成 100 多万份刑事案件数据集,其中所涉罪名包括盗窃、涉毒、交通驾驶罪等十类 469 个刑事罪名,地域包含 23 个省、5 个自治区、4 个直辖市。

  CriElectra 训 练 示 例 如 图 2 所 示 , 给 定 输 入 序 列 1 2 { , , , }n Ε   e e e ,由生成器 G 进行 MLM 任务预测屏蔽词,即随机屏蔽输入序列中的词生成带有“[MASK]”的序列,然后通过 transformer 的结构编码器得到一组包含上下文信息的向量 1 2 ( ) [ , ,..., ] G g g gn h h h h Ε  ,再经归一化层预测屏蔽位置 gt 的词,过程如下所示: p e softmax h G gt ( | ) ( ( ) ) E  G gt E (1) 生成器训练过程中的损失函数如下:

  L G gt  p e  E    E (2) 判别器的目标是判断输入序列中的词是否发生替换,即将生成器得到序列 1 2 { , , , }n D   d d d 通过 Transfomer 结 构 的 编 码 器 得 到 1 2 ( ) [ , ,..., ] D d d dn h h h h E  , 再 经 sigmoid 层输出,过程如下所示: ( , ) ( ( ) ) D dt sigmoid h E  D dt E (3) 式(3)中 dt dn  ,更具体地说,通过用生成器样本替换屏蔽的标记来创建一个损坏的示例 corrupt E ,并训练鉴别器来预测 corrupt E 中的哪些标记与原始输入 E 相匹配,判别器训练过程中的损失函数如下: 1 2 1 ( , ) E( ) n Disc Disc Disc t L  G L L  E    (4) 1 ( )log ( , ) corrupt L I Disc    E E E dt t D dt (5) 2 ( )log(1 ( , )) corrupt L I Disc     E E E dt t D dt (6) 式(4)中  G 与  D 分别为生成器和判别器的参数, I a b ( )  为判别函数,当满足条件 a b  时,取 1,不满足时为 0,CriElectra 训练通过最小化生成器和判别器的交叉熵损失函数进行的,具体可以表示为: ,  min ( , ) ( , )  E E  DG Loss G G D D L λL    (7) 由于生成器的体积是判别器的四分之一,为避免模型间损失失衡因此使用 λ =0.5 平衡生成器和判别器的损失。该模型 Pytorch 和 Tensorflow 版 本 在 之 后 将 会 开 源,供学者共同研究。

  2.1.2 CriElectra 应用

  CriElectra 预训练语言模型旨在让下游任务模型能够使用更好的司法文本的词表示,文本中句子可以表示成字符的集合 1 2 { }, , , n E   e e e , n e 表示句子中第 n 个字符,其中 nN 整个 CriElectra 进行向量矩阵转化的过程可以表示为: ( , ) X  CirElectra E CriElectra (8) 式 (8) 中 E 为 输 入 到 模 型 的 句 子 向 量 表 示 , X R N d Electra 为模型输出的 CriElectra 向量矩阵,X 可以具体表示为 1 2 X { },  n xx x , , , Electra 为 Electra 模型相关参数。

  2.2 基于 BiLSTM 的特征提取层

  特征编码层所使用的模型为双向的长短期记忆模型 BiLSTM,它是 RNN 的一种变体,它包含了一个门控记忆细胞来捕获数据中的长期依赖关系,并能够避免由标准 RNN 引起的梯度消失和爆炸问题。双向长短期记忆循环模型由两个不同方向的长短期记忆网络(Long Short-Term Memory, LSTM)组成,两个 LSTM 分别从前向和后向学习单词的上下文信息,再将二者拼接起来,作为当前时刻的输出,隐藏层状态可以用以下公式描述: h h ,x n  LSTM ,  n-1 n  LSTM    (9) h LSTM h x n   n n 1 , , LSTM    (10) n n n h h h    (11) 式(9)、式(10)式(11)中, dLSTM n h R  和 dLSTM n h R  分别代表前向和后向 LSTM 在位置 n 的隐藏层状态, LSTM 为 LSTM 模型训练参数, 代表拼接操作, 2 dLSTM n h  R 。

  2.3 基于胶囊网络的特征聚类层

  本文中胶囊网络结构如图 3 所示,将 BiLSTM 提取的特征 h 分割到低层胶囊 u d uR 中,为保证胶囊的模长和为 1,经非线性压缩函数 g 得到每个低阶胶囊 utk ,具体过程如下所示: [ ; ; ; ] ' ' ' t t1 t1 tk h u u u   (12) 2 2 ( ) 1 ' ' tk ' tk tk tk ' ' tk tk u u g u u u   u (13) 式(12)和式(13)中,  x y; 表示 x 和 y 垂直连接,表示计算向量的模长。通过动态路由算法实现低层胶囊 ui 与高层胶囊 Rj 之间的信息传递,伪代码如算法 1 所示。其中, z 为路由的迭代次数。

  训练过程中,通过最小化高层胶囊的边际损失实现训练。第 j 个高层胶囊的损失函数 Lj 为: j j j L L L     (14) 2 max(0, ) j j j L Y m R     (15) 2 (1 ) max(0,| ) j j j L Y R m      (16) 式(14)、式(15)和式(16)中,若句子的关系为 Rj 高层胶囊对应的标签,则Yj 值取 1,否则取 0,m  =0.9 为上边界, m  =0.1 为下边界,   0.5 ,模型的全部损失是所有高层分类胶囊损失之和。

  算法 1 动态路由算法伪代码输入 低层胶囊 ui ,高层胶囊 Rj ,迭代次数 z 输出 高层胶囊 Rj 1) for all capsule ui and capsule Rj do 2) 0 ij b  3) end 4) for z iterations do 5) ( ) w softmax b i  i 6) j  ( )  ij j i i R W u g w 7) ij ij j i j b b  W u R 8) end 9) Return Rj

  3 实验

  3.1 数据集

  律文本不同于其他领域文本,其每个罪名的所涉及的概念与构成、罪名认定以及立案量刑的标准均不一致,所涉及的司法文书实体分布、业务也各有侧重。介于以上特性,目前采用统一模型抽取所有司法文书当中的关系较为困难,因此本文选取故意伤害罪司法文书作为关系抽取的研究对象。

  由于故意伤害罪关注的核心要素是人和物,本文在参考通用领域人物关系定义的基础上,根据《刑法》中对社会属性和司法属性的关系需求,从“人”与“人”、“人”与“物” 两种粗粒度出发定义了 9 种分类关系,具体的:

  亲属关系:指两个自然人之间存在直系亲属或旁系亲属关系;

  同事关系:指两个自然人在同一个公司工作或同一时间从事同一份工作;

  邻里关系:指两个自然人生活在同一个社区、同一个单元或同一个村;感情关系:指两个自然人之间未存在法律认可的情侣关系,如恋爱、情人关系;施动关系:指两个自然人是被告人和被害人的关系;共犯关系:指两个自然人同为被告人;使用关系:在一起案件中,以某作案工具为中心,某自然人使用了该作案工具做出了攻击行为,则该自然人与该作案工具之间是使用关系;攻击关系:在一起案件中,以某作案工具为中心,该作案工具攻击了某个自然人,则该自然人与该作案工具之间是攻击关系;拥有关系:在一起案件中,存在的违禁作案工具的所属关系,违禁作案工具指枪、爆炸物品、剧毒物品等物品或工具;除此之外,还定义了一种 NA 关系,表明“人”与“人”、 “人”与“物”之间不存在关系或者存在的关系不属于已定义的 9 种关系。

  本文标注的故意伤害罪的文书内容来自于中国裁判文书网的公开文书数据。利用规则对犯罪事实描述部分进行抽取,再由志愿者进行手工标注,具体的数据分布如图 4 所示,除此之外,由于司法文本的特殊性,其中关系重叠的语料占比为 7.66%,同时,为了更好的描述案件中实体间的逻辑指向关系,构建过程中对关系的方向性也进行标注,如三元组和,它们的实体对都为 E1 和 E2,但由于实体在文中出现前后顺序不一样,因此两实体之间的关系指向会发生变化,本文称 R1 和 R2 互为反向关系。具体的数据 集 会 再 经 整 理 和 扩 充 后 进 行 开 源,供学者共同研究。

  3.2 实验设置

  对于 CriElectra 预训练语言模型,分别采用以下几种模型方法进行实验对比:

  为了评估 BiLSTM 的特征提取的能力,分别采用以下几种模型方法进行实验对比: CERCN : 特 征 提 取 层 使 用 RNN , 模 型 结 构 为 CriElectra-RNN-CapsNet; CECCN : 特 征 提 取 层 使 用 CNN , 模 型 结 构 为 CriElectra-CNN-CapsNet; CECN : 未 使 用 特 征 提 取 层 , 模 型 结 构 为 CriElectra-CapsNet;对于胶囊网络,分别采用以下几种模型方法进行实验对比: CELAP:特征提取层采用 MaxPooling 特征聚类层[2],模型结构为 CriElectra-BiLSTM-MaxPooling; CELMP:特征提取层采用 AvgPooling 特征聚类层,模型结构为 CriElectra-BiLSTM-MaxPooling。

  3.3 实验结果及分析

  实验中,关系抽取模型的性能由从非结构化文本中关系标签的最终提取结果的精确率(Precision)、召回率(Recall)以及 F1 值(F1-score)来进行评估。评价指标的计算方式如下所示: correct_num precision = predict_num (17) correct_num recall = true_num (18) 1 2* precision* recall F = precision+ recall (19) 式(17)、(18)和(19)中, correct_num 表示正确预测的标签个数, predict_num 表示预测的标签总数,precision 表示精确率,true num _ 表示实际正确的标签总数,recall 表示召回率。

  CELCN 与 ELCN 训练的 F1 曲线如图 5 所示,可以看出,训练前期基于CriElectra的模型相较于基于中文Electera的模型,收敛更快,当模型趋于稳定时,CELCN 模型的 F1 值更高,性能更优,因此可表明,相较于中文 Electra,在故意伤害罪关系抽取数据集上,CriElectra 预训练模型能够更好的提供司法文本中词的向量表示,使得关系抽取的结果更优。

  为了进一步的研究 CriElectra 与别的司法领域预训练语言模型之间的性能差异,分别基于清华公开的刑事 Bert 和民事 Bert 展开实验,CELCN 与 XBLCN、MBLCN 训练过程中的 F1 值曲线如图 6 所示,可以看出,三条曲线当中,民事 Bert 的不管是在收敛速度还是最终结果,表现都很一般,而 CriElectra 与刑事 Bert 相比,性能表现相当,但由于 CriElectra 在训练构建过程中,所花费时间成本更低,因此,基于 Electra 构建特定领域预训练模型,是一个很好的研究方向。

  以 CriElectra 预训练模型、中文 Electra、刑事 Bert 以及民事 Bert 为预训练层实验的详细准确率、召回率和 F1 值如表 1 所示,可以看出使用 CriElectra 相较于使用中文 Electera,准确率可以提升 1.54%,召回率可以提升 1.17%,F1 的提升可以达到 1.93%,效果显著。对比于使用民事 Bert,CELCN 在准确率、召回率更高,F1 值得可得到 3.3%的提升。跟刑事 Bert 相比,性能表现相当。这也证明了 CriElectra 能够更好的学习到法律文本的词向量表示。

  为研究 BiLSEM 的文本特征提取表现,本文分别基于 RNN、CNN 做了对比试验,同时为了解 BiLSTM 是否对模型的性能有所帮助,还进行了 CECN 模型实验,实验的详细结果如图表 1 所示,从表中可以获悉,BiLSTM 相较于 RNN、 CNN 能够取得更好的 F1 值,这是因为本文所用数据集语料句子长度较长,而 RNN 和 CNN 的长距离学习能力较弱。对于 CECN 模型,BiLSTM 能够给模型带来 0.41%的性能提升,尽管提升有限,但在一定程度上表明基于 BiLSTM 的特征提取层能够使模型更好的学习到文本的特征表示。

  为研究胶囊网络的性能表现,本文分别进行了基于 Maxpooling 的特征聚类层和基于 Avgpooling 的特征聚类层的实验,其中 CELCN、CELMP 和 CELAP 在实验过程中的 F1 曲线如图 7 所示,从图像可以看出,尽管胶囊网络的收敛速度较慢,但实验的最终结果表明 CELCN 的性能要明显优于 CELMP 和 CELAP。

  实验 CELCN 与 CELMP、CELAP 更详细的准确率、召回率和 F1 值的实验对比结果如图表 2 所示,其中 CELCN 的准确率、召回率和 F1 值分别为 77.26%、82.68%和 79.88%,相较于 CELMP 和 CELAP,F1 值分别提升了 3.53%和 3.73%,表明了胶囊网络在特征聚类方面的优势。

  为了进一步的研究胶囊网络带来的性能提升,本文从数据集中抽取一部分多标签关系数据进行测试,实验的测试结果如表 2 所示,其中,CELCN 的准确率、召回率和 F1 值分别为 43.88%、41.32%和 42.56%,比 CELAP 的 F1 高 0.26%,比 CELMP 的 F1 高 3.91%,进一步证明了胶囊网络在多标签关系抽取任务中的性能优势。

  4 结语

  本文针对司法领域提出了一种新的司法预训练模型 CriElectra,然后利用中文通用的人物关系语料,结合司法知识和人工标注方法构建以被告人、被害人以及作案工具为中心的故意伤害罪关系抽取数据集,提出了 CELCN 模型,很好的解决故意伤害罪关系抽取语料中一对实体多种关系的情况,为司法领域中文关系抽取研究提供了技术基础。在未来的工作中,将基于本文中 CELCN 的研究方法,进一步开展多罪名的关系抽取研究。