树人论文网一个专业的学术咨询网站!!!
树人论文网

术语表研制的四个步骤以英语语言学为例

来源: 树人论文网发表时间:2021-03-31
简要:摘 要: 在国外学者的词频研究方法、语境研究方法和语料对比方法的基础上,以英语语言学 56 万余字的语料为基础,提出了四个步骤的术语表研制方法,并且归纳出了 359 个英语语言学

  摘 要: 在国外学者的词频研究方法、语境研究方法和语料对比方法的基础上,以英语语言学 56 万余字的语料为基础,提出了四个步骤的术语表研制方法,并且归纳出了 359 个英语语言学术语。这种研究不仅是对英语语言学术语的第一次尝试性归纳,而且研究方法上的创新可以应用于其他学科的术语研究和术语表的研制。

术语表研制的四个步骤以英语语言学为例

  本文源自中国科技术语 发表时间:2021-03-31《中国科技术语》杂志,于1985年经国家新闻出版总署批准正式创刊,CN:11-5554/N,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:探讨与争鸣、术语与翻译、术语探源等。

  关键词: 术语表; 英语语言学; 词频; 语境; 语料库

  引言

  术语表( glossary) 是特定学科术语的集合。术语表的质量取决于术语的质量。梁爱林[1]把术语质量的标准概括为六个方面,即清晰性、一致性、得体性、简洁性、准确性以及词的衍生能力; PerinánPascual [2] 认 为 突 显 性 ( salience ) 、关 联 性 ( relevance) 和连贯性( cohesion) 决定了术语的质量。要确保术语表的质量,最重要的是从文本中提取术语的方法和程序要合理。一般来说,作为教材附录的术语表是将教材中出现过的术语按一定的顺序排列出来,这不是一件难事,但是要把一个学科的常用术语尽可能全面地遴选出来,代表一个学科的全部的知识体系和研究方法,却不是一件容易的事。本文以英语语言学为例,将提出一种四步骤的术语表研制方法,并将尽可能全面地归纳出英语语言学的术语。

  1 术语表的研制方法回顾

  国内的术语表研究是多侧面多角度的,比如叶其松[3]提出“术语编纂”三分说,从广义、一般概念和狭义三个维度对术语进行论述; 郑述谱和梁爱林[4]对国外术语学研究现状进行了评介; 梁爱林[1]对术语资源的质量评估进行了较全面的探讨。偶尔也有学位论文( 如陈观喜[5]) 对文档术语表的自动构建方法展开研究,提出了一些较有价值的观点。

  至于国外的术语表研究,更多地关注术语的产生过程和实施方法,在研究思路上大致可以分为三类。第一类是基于词频的方法,第二类是基于上下文语境的方法,第三类是语料对比的方法。这些研究与本文的关系更加密切,所以我们来简要介绍一下它们的主要观点和代表性理论,然后评述一下其得失。

  第一类方法的基本思路是: 如果一个单词出现的频率比较大或者该单词以固定的搭配形式出现在特定的文本中,那么它在这个领域中成为术语的可能性比较大。

  词频 方 法 代 表 性 的 理 论 是 TF-IDF [6]。TF ( term frequency) 指词频,即一个词条在文档中出现的频率。IDF( inverse document frequency) 指逆向文本词频,如果包含某词条的文档越少,即 IDF 越大,则说明该词条具有很好的类别区分能力。CValue [7]是术语抽取方法中应用较多的理论,在统计词频时它要求候选术语不得嵌套在别的术语中,先通过计算候选术语频率和长度得到一个分值,然后根据包含该候选术语的更长的候选术语的词频来调整该分值。Basic [8]与 C-Value 方法刚好相反,根据 Basic 方法抽取的术语可以是其他候选术语的一部分。

  第二类方法是基于上下文语境来区分术语和非术语。NC-Value [7]是代表性的方法之一,它主张一个特定领域的语料库中通常有一个“重要”单词的列表,在这些“重要”单词语境中出现的候选术语应该被赋予更高的权重。Domain Coherence [9]方法是 NC-Value 的一个改进,它用 Basic 方法抽取最好的 200 个术语候选项,然后从它们的上下文中过滤其他词性的单词,这个过滤过程只保留在文档中词频至少占四分之一的名词、形容词、动词和副词,最后用标准化的 Astrakhantsev [9]排序得到前 50 个单词。

  第三类方法是语料对比的方法,基本做法是通过单词在指定领域语料中的词频和其他语料中的词频进行比较,将术语与一般的单词或者短语区别出 来。 这 类 方 法 主 要 有 Domain Pertinence、 Weirdness 和 Relevance [9]。

  上述三类方法,各有其合理性,下面我们分别进行评述。

  第一类方法基于词频来遴选术语,这是最为基础的操作步骤,但是词频方法不能排除高频的非术语词组,尤其是包含 2 ~ 3 词的词组,它们在各类文体中都具有很高的出现频率,比如 put on 和 take advantage of 这类词组,总是混迹于通过词频遴选出来的术语库中,而且数量很大。Biber 等人[10]统计发现,在英语口语和书面语中这类词组分别占 30%左右和 21%左右。Erman 和 Warren [11]的统计结果比例更高,认为分别占 58.6%和 52.3%,所以词频方法只能是术语表研制中的步骤之一,而不能成为独立的术语遴选方法。

  第二类方法是基于语境来区分术语和非术语,某些“重要”单词在词串语境中与其他单词的共现概率很高,但是词组作为整体的出现概率不一定高,所以词组可能被词频统计方法所过滤。如果能将词频方法和语境方法结合起来,把整体的词频数据和词组内部各成分的共现概率进行量化,对两者进行综合平衡,按一定的比例取值,这样计算的结果会比单独考虑词频或语境特征更能遴选出合理的术语表。

  第三类方法是进行语料对比,通过同一单词在不同文体或不同语域的语料中进行频次比较,在统计术语时,这种方法可以排除高频日常词组,比如上文提到的 put on 和 take advantage of 等词组是各种文体和各种语域中的通用词组,它们不仅整体的词频很高,而且内部各成分的共现概率也很高,所以第三类方法通过语域排查可以过滤非术语的词组,但是必须与第一和第二类方法结合起来使用。

  从我们的分析可以看出,三类方法各有其合理性,但是单独使用时都有一定的缺陷,所以本文拟提出四个步骤的遴选方法,充分利用上述三种方法的优势,同时让它们扬长避短,优势互补,找到一条适合术语遴选的方法。

  2 术语表研制过程详解

  本研究以英语语言学的术语提取和术语表制作为例。此研制方法不仅可以为其他学科术语表的研制提供一种示范,其研究结果也可以为英语语言学学科提供可以利用的术语库,指导英语语言学教材编写时的术语选用,同时也可以用作教材的附录,供教材读者使用。当然,由于语料选择的有限性和各种参数在量化精度上的局限性,术语表不可能穷尽一切术语,而且由于学科在不断发展之中,术语表也必须随着时间推移而不断更新。

  2.1 步骤一: 运用词频统计方法进行初步筛选

  步骤一运用词频统计方法,筛选出候选的术语,是对第一类方法的借鉴和发挥。

  为了研制英语语言学语域的术语表,我们设计了一个自建语料库,包括四种语言学著作,并将它命名为 Linguistic Academic Corpus( LAC) 。四部著作分别是: Bussmann [12]的 Routledge Dictionary of Language and Linguistics; Kracht [13]的 Introduction to Linguistics; Saussure [14]的 Course in General Linguistics; 胡壮麟[15] 的《语言学教程》( 第五版) 。Routledge Dictionary of Language and Linguistics 是到目前为止词条最多、声望较高的语言学词典,是学界同行最常拥有的工具书,涉及英语语言学的各个子学科,内容完整、全面。其他三部都是普通语言学的经典教材,它们涉及的术语比较全面,也比较规范。其中,Introduction to Linguistics 是 Marcus Kracht 根据自己在 UCLA 讲授普通语言学时的讲义编写的教材,Course in General Linguistics 是根据 F. de Saussure 在日内瓦大学三次讲授普通语言学的讲义整理出版的遗著,《语言学教程》是国内读者熟悉的普通语言学的经典教材,在内容和语言的经典性方面不逊于国外同类教材。四部著作的形符数( tokens) 为568 138词,类符数( types) 为 27 828 词。

  在处理语料时,我们使用了语料库检索软件 Collocate 1.0,对语料中的 N 元词组( N-gram) 进行检索,词组长度设定为 2~5 词( 即 N= 2,3,4,5) ,以词频( Frequency,下文缩写为 Freq) 为统计参数,发现共有 86 918 个词组类型,在下文中我们称之为 LAC-86918,其中 2 ~ 5 词的词组分别是 39 339、 27 694、12 986、6899 个。表 1 是各种长度词组的举例,它们分别是各组中词频最高的 10 个例子。

  从表 1 可以看出,10 个频率最高的 2 词词组只有 of language 与语言学相关,3 词词组 只 有 the meaning of 与语言学相关,4~5 词词组中与语言学相关的词组稍多,共有 6 个与语言学有关,而且,它们都不具备术语的名词性范畴特征,或者是语义不完整,没有明确的语义指向。对 4~5 词词组来说,词组不具有单一的语义中心,如 trends in linguistics The Hague,或者说它们具有跨句的组合性特征。所以,必须对 LAC-86918 进行较大规模地压缩和精简。

  2.2 步骤二: 运用停用词列表进行二次筛选

  对 LAC-86918 进行压缩和精简,是第二步的操作,即根据停用词表( stopword list) 来进行过滤和精简,可以较大限度地区分术语与非术语。所谓的 “停用词”,指高频率的虚词或与检索目标无关的高频词组。

  使用停用词表,符合第二类方法中的 NC-Value 理论( Frantzi et al 2000) ,它认为在某些“重要”单词语境中出现的候选术语应该被赋予更高的权重, “停用词表”的使用正是对这一原则的逆向使用,因为“停用词表”是可以认定的“不重要”的单词或词组,可 以 把 它 们 或 与 之 搭 配 的 词 组 过 滤 掉。 Domain Coherence [7]用 Basic 方法抽取最好的 200 个术语候选项,再从它们的上下文中过滤其他词性的单词,过滤过程只保留在文档中词频至少占四分之一的名词、形容词、动词和副词,这种方法的逆向使用也与使用“停用词表”的方法异曲同工,因为 “停用词表”包含的过滤项包括各种虚词( 还有 PL 和 AFL) ,过滤的结果与 Domain Coherence 方法只保留高频名词、形容词、动词和副词的方法在思路上是一致的。

  从表 1 可以看出,LAC-86918 中包含了太多的虚词成分( 如介词、不定式的小品词 to 等) ,另外还包含很多非学术的通用词组和通用学术词组,为了把这两类词组过滤掉,我们选择了 PL 和 AFL 这两个词组库。

  PL 是 Martinez 和 Schmitt [16] 基于英国国家语料库( BNC) 选取的 505 条非学术词组库( PHRASal expressions list) 。在 505 条非学术词组中,有 119 条被两位作者标记为在书面文体中“少见或不存在”( rare or non-existent) ,只在口头文本中有较大频率,所以本研究只选取在书面文体中有较高频率的 386 条短语( 386 = 505-119) ,包括 2 ~ 4 词组成的非学术词汇。

  AFL 是由 Simpson-Vlach 和 Ellis [17]所创建的通用学术语料库( academic formula list) ,总共 607 个词组,包括三个部分,第一部分是在口语与书面语中均为高频的 207 个核心词组( core AFL academic formulas) ,第二部分是在书面语中高频的 200 个词组 ( written AFL top 200) ,第三部分是在口语文体中高频的 200 个词组( spoken AFL top 200) 。我们选取 207 个核心词组和 200 个书面语词组,共计 407 个。它们是由 3~5 词组成的学术词组。

  选用 PL 和 AFL 的理由,是因为它们分别代表日常话语中的通用词组和多学科的通用学术词组,而本研究选用的语料是语言学语域的专门学科文本,其目标是提取语言学语域的专门术语,所以该术语表不会与 PL 和 AFL 交叉或共现。

  运用停用词对 LAC-86918 进行二次筛选,得到 2 ~ 5 词的术语分别为 6356 条、573 条、82 条和 25 条,总数是 7036,只有 LAC-86918 的不到1 /12。为了方便,我们把精简后的词组库称为 LAC-7036。表 2 列出了 LAC-7036 中词频排序最高的 10 个术语词组,这些词组中大部分都具有术语的结构特征,也体现术语的语义类型。

  LAC-7036 的数量仍然太过庞大,而且,4 ~ 5 词的词组具有跨句的组合特征,许多外来语( 如 grammatica storica della lingua italiana) 也混迹其中,所以必须开启第三步骤的筛选。

  2.3 步骤三: 运用互信息熵 MI 和词组教学值 FTW 来进行第三次筛选

  第三步的筛选是运用互信息熵 MI( mutual information) 和 词 组 教 学 值 FTW ( formula teaching worth) 来体现语境的筛选功能,也是借鉴了上文的第二类方法[7,9]。我们先介绍一下互信息熵 MI 和词组教学值 FTW。

  互信息熵 MI [18]可以测量中心词( node word) 和搭配词( collocate) 之间的关联强度 ( association strength) 或可搭配性( collocability) 。MI 的计算公式是: MI( x,y) = fobs( x,y) /fexp( x,y) 。在公式中,x 是中心词,它的前后若干长度内的搭配词为 y, MI( x,y) 是 x 和 y 之间的互信息熵。等式右边是两个函数式( f: function) 相除,x 与 y 的观测共现频数 ( obs: observation) 的函数 fobs( x,y) 为分子,零假设下中心词与搭配词的期望共现频数( exp: expectation) 的函数 fexp( x,y) 为分母[19]。

  词组教学值( FTW) 是 Simpson-Vlach 和 Ellis [17]提出的计算方法,用于评估教师在多大程度上认为某词组应该成为教学内容。FTW 是对互信息熵和词频的按比例取值,即 FTW = 0.56 MI +0.31 Freq,当MI、Freq 和 FTW 三个参数取值相互冲突时,SimpsonVlach 和 Ellis [17]的做法是 FTW 优先。

  所以,不管是 MI 还是 FTW,都或多或少地体现了词组内部各成分之间的相互期待,体现了“重要”的词[7]与周边词之间相互吸引的强度,或者说体现了“重要”的词所受的语境约束的大小,所以 MI 和 FTW 一方面排除了词频对于术语遴选的唯一取舍功能,另一方面也可以弥补语料库规模对于词频总数的影响。任何语料库的规模都是有限的 ( 不管它实际有多大) ,一般来说,语料库的规模越大,术语的出现频次就越多,所以如果考虑 MI 并且将它与词频按一定比例折算成 FTW,就可以降低语料库规模的影响。这种做法体现了上文第二类方法对于第一类方法的补足与纠偏。

  我们遵循这种算法,把 FTW 的取值设定为 10.00,即只取 FTW 大于或等于 10.00 的词组,得出 681 个语言学语域的术语 词 组,我 们 称 之 为 LAC-681,2~5 词的词组分别是 197 个、377 个、82 个、25 个,在规模上又只有 LAC-7036 的不到1 /10,与 LAC-86918 相比只有不到 1 /127。对 LAC-681 在此暂不举例,因为它分为两部分,其中一部分是在第四步骤( 见下一节) 的操作中被淘汰的部分,所以在下一节将有举例,而保留的部分就是最终产品,即语言学语域的术语表。

  2.4 步骤四: 基于人工语义判断的第四次筛选

  研究发现,LAC-681 虽然经过三次过滤,但仍然包含了较多非术语的词组,必须进行第四步的过滤。造成过滤不彻底的原因有两个: 一是在第二步骤中使用的停用词表不可能刚好与术语词组具有互补性,我们选择停用词表的原则是宁可过滤功能稍有欠缺,不可过滤功能太过强大; 另一个原因是 MI 和 FTW 的使用客观上产生了一种负效应,因为原本可能通过词频被过滤的非术语词组,因为 MI 和 FTW 降低了词频的权重,所以一部分原本词频较低的词组又进入 LAC - 681 中,比如表 3 中的 tickling cookie monster 只出现了 2 次,但是它的内部连贯性很强,所以 MI 的取值高达 35. 02,结果 FTW 的值被拉高了,但它显然不是语言学的术语。所以,为了把此类词组过滤掉,必须借鉴上文的第三类方法,即运用语料对比的方法,通过单词在指定领域语料中的词频和其他语料中的词频进行比较来排除。由于 LAC-681 的规模较小,所以我们采用人工判断的方法,把语言学语域的词组与非语言学语域的词组区分开来,排查的结果是剔除了 322 个词组,其中有的词组是语义不完整或者在结构上 是 跨 句 的 词 汇 组 合 ( 如 categorial grammar formal logic) 。表 3 是 322 个被排除的词组中各种词长词组 FTW 取值最大的 10 个例子,按 FTW 的降序排列。

  排除了 322 个非术语的词组后,余下的 359 个词组就是最终产品,称为 LAC-359,即语言学语域的术语表,其中第 1~97 是 2 词术语,共 97 个,约占 27.02%,FTW 的平均值为 14.07; 第 98~320 是 3 词术语,共 223 个,约占 62.12%,FTW 的平均值为 12. 85; 第 321 ~ 356 是 4 词 术 语,共 36 个,约 占 10.03%,FTW 的平均值为 19.1; 第 357~359 是 5 词术语,共 3 个,约占 0.83%,FTW 的平均值为26.1。在附录中,每一种词长的术语都是按 FTW 的降序排列。

  从上面的数据对比可以看出,3 词术语最多,其次是 2 词术语,再次是 4 词术语,5 词术语最少。从 FTW 来看,4 词术语和 5 词术语最高,它们的词频并不高,但是 MI 取值较高,即内部成分之间具有较高的相互期待。2 词术语和 3 词术语的 FTW 相对偏低,它们的词频虽然较高,但是 MI 取值偏低。

  3 结语

  国外学者对术语的研制方法可以分为三类: 词频研究方法、利用语境的研究方法和语料对比的研究方法,他们各有优胜之处,也各有其不足。本文提出的四步骤术语表研制方法吸纳了三类方法的优点,同时回避了他们的不足。在四步骤方法中,第一步骤对应词频研究方法,第二和第三步骤是语境研究方法的应用和拓展,第四步骤是以人工筛选的方法体现语料对比的原则。通过对 56 万余字的英语语言学语料的多种操作,归纳出了 359 个英语语言学术语。本文的研究不仅是对英语语言学术语全面的尝试性归纳,其中的研究方法可以应用于各个学科的术语研究和术语表的研制。由于语料选择的有限性和各种参数在取值上的局限性,LAC-359不可能穷尽一切术语,而且受到学科发展阶段性特征的局限,术语表还必须随着时间推移而不断更新。

  本文的术语提炼方法,对于其他学科具有同等的适用性。但是,鉴于本文的语料是英文,如果其他学科所采用的语料是中文,而且中文是音节文字,词句间有不同的断句方法,所以我们建议采用多种方法对语料进行分词( parse) ,在分词结果各不相同的前提下,建议采用“投票”软件( 软件名为 vote) 。英文或其他印欧语言的语料,词与词之间有空格分开,无须进行分词操作。

  我们建议同时使用 hanlp、jieba 和 thulac 这三种分词软件,以《语言学纲要》[19]第一章第一节第一段为例,三种分词效果对比如下。

  hanlp 的分词效果: 语 言/的/功 能/是/客 观 存 在/的/。/功 能/既是/语言/的/属性/,/也/是/我们/认识/语言/的/一个/视角/。/语言/的/功能/是/多方面/的/,/如果/ 从/宽泛/的/意义/上/讲/,/大致/都可/归入/语言/ 的/社会/功能/和/思维/功能/两/个/方面/。/

  jieba 的分词效果: 语言/的/功能/是/客观存在/的/。/功能/既/ 是/语言/的/属性/,/也/是/我们/认识/语言/的/一个/视角/。/语言/的/功能/是/多方面/的/,/如果/ 从/宽 泛/的/意 义/上/讲/,/大 致/都/可/归 入/语言/的/社会/功能/和/思维/功能/两个/方面/。/

  thulac 的分词效果: 语言/的/功能/是/客观/存在/的/。/功能/既/ 是/语言/的/属性/,/也/是/我们/认识/语言/的/一个/视角/。/语言/的/功能/是/多方面/的/,/如果/ 从/宽 泛/的/意 义/上/讲/,/大 致/都/可/归 入/语言/的/社会/功能/和/思维/功能/两/个/方面/。/

  分歧存在于每段中的划线部分,所以必须采用 “投票”程序,对三种分词效果进行“投票”,体现 “少数服从多数”的原则。

  投票结果: 语言/的/功能/是/客观存在/的/。/功能/既/ 是/语言/的/属性/,/也/是/我们/认识/语言/的/一个/视角/。/语言/的/功能/是/多方面/的/,/如果/ 从/宽泛/的/意义/上/讲/,/大致/都可/归入/语言/ 的/社会/功能/和/思维/功能/两/个/方面/。/

  分词后,还必须进行人工校对,比如将“客观存在”分成两个词。国内各学科的同行使用的语料一般是中文语料,可按上述方法处理语料。在语料处理完成之后,对于处理结果的统计和人工校对可以借鉴本文的方法。