SCI期刊 | 网站地图 周一至周日 8:00-22:30
你的位置:首页 >  生物医学论文 » 正文

生物医学多元化命名分辨分析

2021-4-9 | 生物医学论文

本文作者:马瑞民 马民艳 单位:东北石油大学数据库理论与技术科研室

生物医学的快速发展,产生了大量的生物医学数据。这些生物医学数据有的是以结构化的形式存在于数据库中,例如基因序列、基因微阵列实验数据和分子三维结构数据等;有的生物医学数据以非结构
化的形式被记载在各种生物医学文献中。从生物医学文献中发掘出隐含的生物医学知识,是生物医学信息抽取的重要意义所在。生物医学命名实体识别是生物医学信息抽取的一项重要基本任务之一,它
主要是从医学文献中发现基因、蛋白质、DNA、RNA等生物实体。生物医学命名实体识别的研究具有一定的艰巨性,主要是因为生物文献中实体命名不规范、相同的词或者短语表示不同类别命名实体等,
给研究带来了一定的困难。

目前,生物医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法。生物医学命名实体识别研究初期,最常使用的是基于字典的方法。如Krauthammer等[1]利用DNA和蛋白质序列比较工具
BLAST识别生物医学命名实体。上述方法的优点是简单实用,但由于新的生物医学命名实体不断出现,所以基于字典的方法对于自由文本的生物医学命名实体识别效果不佳。Olsson等[2]提出了基于规则
的方法识别生物医学命名实体,F值达到了67%。与基于词典的方法比较,基于规则方法的识别性能有所增强,但它需花费大量人工劳动、且可移植性差。基于机器学习的方法可以判别生物医学命名实体
数据库中未包含的实体,方法较为灵活。该方法对训练数据规模、质量以及特征选取等方面的因素具有很强依赖性,所以,此方法对于生物医学命名实体识别性能提高的研究具有很强挑战性。本文将采
取有效的机器学习算法,结合多种策略,以期提高生物医学命名实体识别的识别性能。

1算法

目前主要应用在生物医学命名实体的机器学习方法有多种。文献[3~6]中分别提出基于隐马尔可夫模型、决策树、支持向量机、最大熵等方法,这些方法把词性、词形等特征融入到机器学习模型中,利
用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称。虽然取得了一定成果,却也具有一定的不足,如识别性能不高、多种条件约束、识别策略单一化等。条件随机域机器学习算法在自
然语言处理领域中有着非常显著的优势,目前已成功应用到词性标注、语块识别和新闻领域的命名实体识别中,且表现出了非常好的效果。该模型的特性表明它非常适用于生物医学领域的命名实体识别
研究。鉴于此,本文采用条件随机域算法对生物医学命名实体识别进行研究。条件随机域(ConditionalRandomFields,CRFs)是Lafferty等人于2001年提出来的[7]。它是计算具有无向图G结构的随机变
量集合在给定随机变量集合o下的条件概率P(s|o)。将CRFs应用于生物医学命名实体识别中,则o表示一个句子的单词序列,s表示相应的状态序列,标注的过程就是根据已知的单词序列推断出最有可能
的状态序列,即P(s|o)的最大值。本文实验使用了一阶线性CRF,如下式:(公式略)。条件随机域模型允许在观察序列上的任意依赖关系,并且特征不需要一定是一个完整的状态或观察值,可以用较
少的训练数据训练出模型,所以说,CRFs拥有了一般的最大熵模型的所有优点。

2实验

2.1特征选择

生物医学命名实体识别中常用的特征有以下几种,一是局部特征,包括文本符号本身的特征和文本符号局部的上下文特征及其周围的词或符号的特征;二是全文特征,即文本符号在整个篇章中的上下文
特征;三是外部资源特征,比如说使用一些外部资源词典等。本文研究中,使用了如下特征:(1)单词本身:把单词本身作为一个识别特征。(2)词形特征:由于生物医学命名实体一般含有数字、大
写字母和特殊符号等,将这些简单的表面特征定义为词形特征。本实验将大写字母都用‘A’替换,数字用‘0’替换,非英语字符用‘-’替换,小写字母用‘a’替换。(3)标准化拼写特征:某些同一
类的生物医学命名实体,它们拼写方式很类似,如:IL-2andIL-4。用简单的方法标准化所有类似的词。如Kappa-B规范化为‘Aaaaa_A’,再将连续的相同的字符缩短为一个字符,即为‘Aa_A’。这样做
能够将拼写相似的生物医学命名实体提取的特征保持一致。(4)词性特征:生物医学命名实体的大写字母特征对其识别性能贡献不大,并且生物医学命名实体多是描述性的名称而且名称很长,所以,词
性特征对识别生物医学命名实体边界很有帮助。本系统使用了GENIAtagger2.0.2[8]词性标注器,GENIAtagger使用了WallStreetJournal语料和PennBioIE语料训练,因此GENIAtagger在生物医学领域文本
中词性标注具有较高性能。(5)语块特征:系统使用GENIAtagger2.0.2进行语块标注作为特征。(6)关键词特征:利用统计方法在训练集中统计出高频的生物医学命名实体关键词,将这些词是否出现
作为特征。(7)别名特征:将已识别出的生物医学命名实体存放在一个列表中,当系统遇到一个候选词时,生物医学命名实体识别算法就被激活,动态决定该候选词是否是前面已经识别出来的生物医学
命名实体列表中词的别名。别名特征属于全文特征。(8)特征联合:将相邻位置的特征进行联合,得出新的特征,有助于识别长距离词。本实验选择窗口的大小为(-1,+1)。(9)字典特征:使用了
一些字典资源作为特征加入特征向量空间,有CommonWord词典、Species词典、Tissue词典和EndingsofChemicals词典[9]等。

2.2缩写词识别

现在最常用的生物医学文献库是MEDLINE(MEDLARSONLINE),它是由美国国家医学图书馆于1966年开始建立的,收录的文献总量超过1500万条。据了解,MEDLINE上42.8%以上的摘要有缩写词,平均5~10篇
摘要有一个新出现的缩写词,并且缩写词出现的增长率逐渐升高。很多缩写词具有高度歧义性,它的形成没有任何规律,所以,提高缩写词的识别率对生物医学命名实体的识别研究至关重要。通常,缩
写形式经常和它的扩展形式一起出现,并通过括号连接,通常有两种形式:(1)longform(shortform),(2)shortform(longform)。实际当中大部分是第1种形式,当括号中的词超过两个时,就认

Top