数字人文的工具理性、学术价值与研究成果的评估

来源：树人论文网发表时间：2021-03-01

简要：摘要：经过几代学者的努力，数字人文从无到有，在学科的制度化建设方面已取得长足的进步。然而，目前数字人文领域内发表的专著、论文和制作(图像、数据和编码)虽然数量可观，

　　摘要：经过几代学者的努力，数字人文从无到有，在学科的制度化建设方面已取得长足的进步。然而，目前数字人文领域内发表的专著、论文和制作(图像、数据和编码)虽然数量可观，真正令人满意的成果却是凤毛麟角，其原因在于大多数研究者过于偏重证明数字工具的可行性，而忽视学术发现的重要性。数字人文的突破之路在于把关注的重心从工具理性自我把玩转移到外向性的、可传达的发现性学术。这要求我们重新思考数据本身的价值及其对于人文研究的意义，相信数据的言说意义，但不迷信数据是社会现实的绝对、唯一的再现。只有把数字化文本纳入文本阐释理论的范畴，糅合远距离阅读的功能和人工阅读的智慧，我们才能充分凸现数字文本的社会与文化寓意，从而把信息转变为知识。

　　本文源自燕山大学学报(哲学社会科学版) 发表时间：2021-02-26《燕山大学学报》杂志，于2000年经国家新闻出版总署批准正式创刊，CN:13-1277/C，本刊在国内外有广泛的覆盖面，题材新颖，信息量大、时效性强的特点，其中主要栏目有：政治学、法学、社会学、伦理学等。

　　关键词：数字人文;远距离阅读;工具理性;数据崇拜;发现的学术

　　几年前我在本学报发表了一篇介绍数字人文的短文，其中谈到了数字媒介和传统人文的联姻形成了数字人文的基础。正是由于这种学科交叉性给数字人文学科造成了界定的困难，因此我把人文科学的数字化进程比喻为“幽灵”：“数字化对于人文学科而言仍然是个幽灵，因为它是趋向于未来的现在，一个未知超过已知的现象，一个幻想多于现实的概念。” 1 时至今日，我依然喜欢这个比喻，因为数字人文这个幽灵变化莫测，既亲近而又飘渺，同时又让我们魂牵梦绕，难以释怀。

　　数字人文的何作何为、何去何从是数字人文学科建设中的“天问”，从其问世之日起从未停息。在人类科学史上，所有新兴学科都在怀疑和质询的声音中生长成型，数字人文也不例外。在加利福利亚的硅谷, “炒作周期” (hype cycle) 是一个广为人知的术语。这个具有自嘲意味的术语描绘的是一般高科技公司发展成熟的的五个周期：首先是“科技起因” (technology trigger), 这时新科技的发明，引起风投基金和媒体的兴趣;其次是“过度期望的高峰” (peak of inflated expectations)，其间因为过高的目标未能实现，投资方略有微词，创业者无所适从;于是高科技公司陷于“失望的低谷” (trough of disillusionment) ，生死存亡在于调整决策，适应市场;再其次是“启迪的山坡”(slope of enlightenment)，这时经验和教训换来了脚踏实地的规划和稳固扎实的发展;最后是“生产效率的高原” (plateau of productivity), 这便是高科技公司凤凰再生，走向成熟的标志。

　　这个卓卓有名的“炒作周期”理论是否能有效地解释高科技公司的成败兴亡另当别论，但数字人文目前处于“失望的低谷”已从个别学者的窃窃私语几乎变成了学界的共识。跟前期的激烈批评不同——那时一些捍卫传统人文价值观念的学者往往对数字人文持彻底否定的立场，时而甩出有点耸人听闻的标题，如史蒂文·马赫(Stephen Marche)的《文学不是数据：驳数字人文》3 或亚当·克思奇(Adam Kirsch)的《科技接管英文系：数字人文的虚假承若》，4 近期的批评则来自于数字人文的参与者，是一种反思与自省式的批评，有点恨铁不成钢的意味。弗朗科·莫瑞狄(Franco Moretti)可以算是这类批评的最好代表。莫瑞狄既是著名的传统比较文学学者，也是公认的数字人文的奠基人之一，他提出的“远距离阅读” ( Distant Reading)的概念已成为数字人文的一个标识。然而在最近一次有关数字人文的对谈里，他对数字人文的学科现状却表露出相当悲观的情绪。面对采访者对于数字人文的未来可为的提问，莫瑞狄首先对这个问题表示不满，他说：

　　“‘数字人文已经做了什么?’ 这个问题我们根本没有涉及。为什么不能先放下关于未来的问题，问问现在数字人文做了什么?我觉得这本身就是耐人寻味的现象。令人费解的是，数字人文目前为自己造就了一种永久的婴儿期，总是在寄希望于未来。这种作法是对理智判断的曲解，因为理智判断应该面向过去的存在，而不是对未来的承诺。”5

　　作为数字人文的大家，莫瑞狄对于学科的未来不可能没有自己的设想。我猜测也许他对处于“炒作周期”中数字人文司空见惯的过度自我推销与无边许若或许有点厌烦，但这更有可能反映了他对数字人文研究现状的失望，因为他接着回答了自己的设问：“[数字人文]已取得的成绩并不令人满意……数字人文自己号称是了不起的新事物，然而至今为止我们拿不出什么证据证明如此。” 6

　　由于是对谈的形式，我们不能对莫瑞狄的随心恣意的语词过于挑剔。比如在对谈中他甚至发出“数字人文什么也不是”(digital humanities means nothing)的惊人之语，提议要用” 电脑批评“(computational criticism)而取而代之。莫瑞狄想传达的是对数字人文真切而又执着的关怀，同时也是对数字人文目前处于“失望的低谷”的焦虑。焦虑的根源在数字人文的研究现状与我们对它“过度期望”不相般配，这是莫瑞狄的个人意见，但他很显然综合了众多批评者的声音。

　　数字人文孵育于 20 世纪六七十年代，成型于八九十年代，自 2004 年正式命名之后，进入迅速发展的时期，相当于前文所说的“过度期望的高峰”。迄今为止，数字人文当然不是一无所成;恰恰相反，它可以说是从无到有，硕果累累。除了海量的制作(图像、数据和编码)、论文和专著——其鉴别和评估是下文要讨论的问题——以外，数字人文的成果主要表现在学科本身的制度化建设，包括研究中心、专业协会与行业学术刊物。以各种方式命名的研究机构如室(lab)、方案(initiative)和中心(center)在欧美大学如雨后春笋般生长，从著名学府伦敦大学、普林斯顿大学到一般高校堪萨斯大学、乔治梅森大学，大家都想搭上数字人文的快车。有些高校甚至成立了单列的专业系所招收本科生和研究生，一般以数字人文加公共人文 (public humanities)或应用人文(applied humanities)命名，如伦敦国王学院和亚利桑那大学。各种专业协会的数目有二十几个，其中有影响的包括“电脑与人文协会”(Association for Computers and the Humanities), “欧洲数字人文协会”(European Association for Digital Humanities)和“数字人文组织联盟”(The Alliance of Digital Humanities Organizations)。7 学术刊物大多行数字人文之实，只有网络电子版，开源，依循盲审制度，如 Digital Scholarship in the Humanities，Digital Humanities Quarterly，Digital Studies 和 Journal of the Text Encoding Initiative。8 数字人文的制度化建设的迅猛发展离不可充足的科研经费支持，这方面数字人文相比传统人文有明显的优势，因为其与电脑科技的交叉得以模仿现行科学体制的操作模式，从而取得公共资源与私立基金会的资助。当然，数字人文的兴盛也与美国人文学科国家基金(National Endowment for the Humanities)的大力提倡和美国现代语言协会(Modern Languages Association)的学术认定息息相关。

　　在西方学界，关于人文学科在数字化时代的危机的讨论由来已久，数字人文一直被认为破解这个危机的途径之一，因为其科学内涵和交叉特性而被寄予厚望。如果仅从其轰轰烈烈的制度化建设来看，数字人文对于提升人文学科的社会关注度与影响力是非常成功的。然而，制度化建设的成功并不是一个学科成熟的决定性标志，有效研究成果及其影响才是。迄今为止，数字人文领域内发表的专著、论文和图像设计与数据库制作数量虽然非常可观，可是真正令人满意的成果却是凤毛麟角。这正是莫瑞狄焦虑的根本原因所在，所以他对数字人文下期的工作提出如下建议：“也许数字人文接下来要做的最重要的事情是了解自已的研究成果的性质，也就是如何评估的问题。同时，我们必须反思为什么生产优异的成果如此之难，尽管我们的精力、人才和工具一样也不缺。”9

　　数字人文研究成果的评估困难恰恰来自这个学科的新颖之处：即把数据分析带入文本分析，通过其产生的统计性的数量化结果而导出新的结论或产生新的知识。经过几十年的努力，数字人文的这种工具理性的价值已经得到了制度化的肯定，可是它的价值理性必须纳入现有的科学评估体系，包括传统人文的价值评估范式。很显然，数字人文的数量化文本分析方法跟传统人文的质量化分析方法是不相融的，因此要想建立一个统一的标准是件困难的事。所以早期的数字人文学者处于相对独立的状态，在学术领域的边缘地带独自辛勤耕耘。得益于标准化的电脑语言程序的建立和完善, 如“标准通用标记语言”(Standard Generalized Markup Language)和文本编码计划(Text Encoding Initiative)，他们制作的一系列普通或主题性的文本语库，前者如谷歌书库，后者如有名的“书信共和国图谱”(Mapping the Republic of Letters)，为文本的“数字再现”提供了实验基础，从而拉近了电脑阅读与读者阅读的距离。进入二十一世纪，数字人文的潜在学术价值不再令人怀疑，但是如何在现有的学术体系中评价数字人文研究成果引起了持久的争议，这首先对于数字人文学者的求职、升迁和奖励具有实际意义，特别是在数字人文学科建设蓬勃开展的时候。有鉴于此，美国现代语言协会于 2000 年发布了关于评价数字人文与数字媒介学术成果的指导性建议，并于 2012 年更新。因为现代语言协会是美国最大的人文学科专业组织，它的纲领、章程和建议有很高的权威性。这份建议首先肯定数字媒介对教授职能在读写文化、学术研究、教学实践及公共服务方面带来的巨大变化，这是我们所处的数字化时代社会与文化变革的结果，而数字人文代表的方法和理念是对这一时代的理性认可，是延续和张扬人文精神的知识渠道。在这个认知层面，建议强调：“学术评价必须反映迅速变化之中的科技、制度与职业以及伴随而来的对学术、教学和服务的重新定义。”10 由于数字人文学科本身的繁复和多样，这份建议并没有给出非常具体的评价标准，只是强调在传统学术评价规则的框架之下包容更为广泛的研究成果样式，如电子出版物、开源期刊及数字与图像制作。

　　美国现代语言协会及其它专业组织对数字人文的认可和倡导只是解决了一半的问题，另一半则需要数字人文学者共同努力一套衡量研究成果质量的评估体系，既能满足数字人文这顶“大帐篷” 11 的各种研究产出方式，又能回答数字人文的质疑者，从现在常见的学科内自我庆贺的喧哗走向人文科学关于范式与规则的普识之路。

　　必须指出的是，美国现代语言协会对数字人文的热情支持并非仅是部分领导者的先知先觉，而是得益于美国高等教育界自上世纪九十年代以来对于高等教育的价值与目的的反思与讨论，包括有关学术文化传统的重新认识。1990 年，著名教育学家欧内斯特·博耶 (Ernest Boyer)受卡耐基基金会之约发表了影响深远的研究报告《重估学术：教授职业的首要责任》，主张在高等院校日益增加的社会责任和迅速发展的信息化科技的前景之下，我们要突破由来已久的研究即学术的传统定义。他认为教学与研究绝然对立的思维已经过时，提出了扩展学术定义的四点意见，即发现的学术(scholarship of discovery)，整合的学术 (scholarship of integration)，应用的学术(scholarship of application)和教学的学术(scholarship of teaching)。12 这四点意见基本上规范了之后关于学术文化的变革方向，虽然其具体内容仍是商榷和争议的对象，还有待于充实与完善。

　　不可否认的是，当今的美国高等教育与学术文化在很多方面已经发生了巨大的变化，如大学财政与管理的企业化、学科交叉的制度化，在线与多媒体教育科技的普遍化等等，虽然这些变化带来的效益与弊端还有待于历史的评判。数字人文在这个大坏境中迅速发展成型也是顺乎自然的事情。至少在欧内斯特·博耶所提倡的学术文化新定义的三个方面，即整合的学术、应用的学术和教学的学术，数字人文发挥其先天的优势，数十年来取得了非凡的成绩。然后，我们注意到欧内斯特·博耶把“发现的学术”列在第一位而突出其在新的学术文化中的重要性。发现意味着创造、发明，是产生和传递新知识的基础，也是贯穿一切科学话语(自然科学或人文科学)之中的核心价值符号。在这方面，数字人文的表现是不能令人满意的。一如弗朗科·莫瑞狄的悲观论调，我认为目前数字人文处于“失望的低谷” 的说法并不过分。

　　那么数字人文目前面临的挑战是什么呢? 笔者认为一是评估体系的自我指涉，二是阐释理论的放弃。前者导致数字人文研究的自我封闭，大量的研究成果自娱自乐，而得不到人文学界的认可，更不能满足“发现的学术”的范式要求。后者倾向于过度相信数据，视之为自在、自明的文本，把文本解读简化于数据统计和数字推理。两者虽然在研究过程和成果呈现中表现不同，实质上都源于方法的理性化，即以工具理性为目的的实验主义哲学。

　　数字人文的学科立足点是对源数据(对文本的某种切割或综合)的量化分析，对于这种分析的有效性的验证来自于两个方面，第一是采集源数据的工具是否运行正常，第二是这个运行正常的工具所得出的结论是否可靠。常见的数字人文研究多注重于第一而轻视第二，或者把两者混而为一。这里的“工具”是指替代人眼阅读的机器阅读，包括研究者依据电脑编码语言定制的各种处理文本的专用应用程序，或由高科技公司及行业研究机构开发的智能数据库与通用阅读器，其中最有名的是由谷歌于 2010 年推出的“N 像阅读器” (Ngram Viewer)。这个阅读器可以瞬时“阅读”谷歌书库”(目前收集了四千万书目，约占世界总量的百分之三十)中的海量文本，所以自问世以来成为数字人文研究者津津乐道的工具，尤其为历史和文学学者所偏爱。因为其声望和影响，关于数字人文的评估争议也集中体现在 N 像阅读器的功用和效率上面。

　　N 像阅读器实际上是一个计算机搜索引擎，它通过人为输入的任意关键词组合而给出词语频率和相联关系的图标或数据统计，同时注明详细的时间坐标。13 这种阅读完美体现了弗朗科·莫瑞狄先于 N 像阅读器十年所猜想的“远距离阅读”的内涵，因为 “远距离阅读”的实质就是借助于数字化手段的泛读，在海量的文本里通过“分析修辞、主题、借喻、风格和系统性来寻找范式和模型”。14 显而言之，完成这样的阅读非 N 像阅读器莫属。事实上，弗朗科·莫瑞狄身体力行，通过 N 像阅读器，较早地提供了一个关于“远距离阅读”的研究案例，即对从 1740 年到 1850 年之间出版的七千部英国小说中所体现的作家在小说主题和遣词造句中的性别意识，这是数字人文早期研究一个典范性的成果。

　　然而，借助 N 像阅读器的远距离阅读功能而产生的结论的学术价值并非毫无争议，最常见的批评是它们往往只是证实已知的常识，而非创造了新的知识。关于弗朗科·莫瑞狄的研究成果的评价笔者另文已有介绍，15 这里不再赘述。美国学者艾拉兹·埃登(Erez Aiden)和让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)合著的《未知的疆域：大数据作为探究人类文化的棱镜》16 是另外一个体现了数字人文的承诺与局限的例子。这两位学者置身于信息化时代的宏观视野，宣称“大数据革命”不光会改变我们如何认识自我，还会改变人文和社会科学的本质，并重新定位商业化社会与大学这个象牙之塔的关系。基于这个宏观视野，他们关注点是大数据的历史痕迹，比如说它们如何影响商业活动、政府决策、社会行为与个人生活。于此，他们依据 N 像阅读器所提供的抽象数据语言来解释许多历史和社会现象，其中一个的案例是此书第五章《沉默之声》对纳粹德国的艺术审查制度的研究。他们的检索发现许多著名现代艺术画家像马克·夏加尔(Marc Chagall)、保罗·克利(Paul Klee) 在德国 1933-1945 年间出版的书籍中几乎不见踪影，这说明纳粹德国已成功地根除了作为 “颓废艺术”的现代派艺术。这个结论，正如亚当·克思奇所言，毫无新意，至多提供了关于纳粹德国焚书禁言体制的一个细节。更为重要的是，亚当·克思奇指出了两位作者在构思这个研究案例时的致命缺陷，即为已知的问题补充显然的答案：“除非我们知道要找什么、为什么要找它，我们就不会去检索那个时间段这些名字出现的频率。”17

　　如此看来，艾拉兹·埃登和让-巴蒂斯特·米歇尔的成就只能说是在整合的学术和应用的学术方面有所贡献，而在发现的学术方面则无所建树。更恰当地说，他们证明了数字人文的工具价值，即 N 像阅读器的远距离阅读的强大功能。身为 N 像阅读器的发明者群体成员之一，他们对这个新颖的高科技“玩具”爱不释手，奉为至宝，因而不惜以近三百页的篇幅而渲染其功能与价值，这里有一种“工具自恋”的姿态。也许我们不应该求全责备，因为 N 像阅读器确实是一项了不起的发明，但在数字人文界，这种工具自恋的确是一种常见的现象，尤其是在具有科技背景的数字人文学者当中。工具自恋的现象反映了数字人文对高科技产业炒作文化的追随，对其软件程序产品的商品特性的警醒不足，从而把学术性和市场化混为一谈。更为重要的，工具自恋遮蔽了对工具本身应有的批评维度，对软件程序可能的偏见与局限视而不见，从而忽略其潜在的结果与效用偏差。在计算机科学的算法研究话语中，“垃圾进，垃圾出”(garbage in, garbage out)是一句很有反省意味的流行语，意指错误的数据输入会产生荒谬的数据输出。这不仅强调人为数据选择的前在性，也暗含算法程序的局限性。当今的许多基于算法程序的数字化商业产品，如微软的人工智能、脸书的信息算法等使用预测模型(predictive modeling)的数据采集系统，在种族、性别与社会弱势群体方面都表现出不同程度的偏见与歧视。谷歌的 N 像阅读器及其伴侣谷歌书库也不例外，它们众多的缺陷如书目选择的随意性、科目类别的代表性以及光学扫描的文字误差都可能引发远距离阅读的失真。有鉴于此，一些有见识的学者如马修·富勒(Matthew Fuller) 提出了“软件研究”(Software Studies)的概念，18 把软件系统的社会与文化效果的研究纳入数字人文的学科领域。

　　毫无疑问，数字人文不能放弃对数字化工具的批评，但这不意味着放弃数字化工具本身。数字人文，从根本上来说，就是用数字化工具来回答传统人文的问题。对于任何一项数字人文研究，工具的重要性不言自明，而问题则更为重要。“正确”的问题应该体现人文精神的精髓，即代表人类对经验的超越和对未来的幻想，指向增进理解和培育共情，其预想的答案一定含有发现的学术内容，并经得起现有学术评估体系的考验。在研究过程中，这个“正确”的问题与数字化工具碰撞、交融、磨合，有可能变成无意义的问题，也有可能变形为其它的问题，或引发出其它的衍生问题，这也许是数字人文研究不同于传统人文研究的地方。这种问题为重、工具为辅的研究构想已经在一些成功的数字人文学者那里体现出来，比如英国学者梅尔芭· 卡迪-基恩(Melba Cuddy-Keane)及其合作团队关于“现代主义的关键词”的研究项目。19 这项研究首先从一个来自于个人近读读经验的假设入手，即某些关键词如广告(advertising)、宣传(propaganda)、国际化(international)在现代派文学艺术兴起期间广为流行，而另外一些我们现在熟知的关键词如宣言(manifesto)、先锋(avant-garde) 则不是现代主义艺术家的常用词语。毋庸置疑，N 像阅读器至少目前是验证这个假设的理想工具，验证的结果是假设成立。下一步，梅尔芭· 卡迪-基恩从这个成立的假设中引发新的问题。在比较、考察英国文学史上的维多利亚文学和现代派文学的承继与断裂痕迹时，她发现了一个有趣的 “战争驼峰曲线”，即在两次世界大战期间，某些关键词的出现频率的升降类似于隆起的驼峰。“战争”这个词的使用频率符合驼峰曲线，这是意料之中的事，“和平”“民族”“民主”这些词语的归类也合情合理，但“速度”、“新世界”这些词语的驼峰频率却超乎我们的意料。受这些关键词的数据发现的启示，梅尔芭· 卡迪-基恩进而讨论了几个文学与社会关系重要课题：人类战争的重负如何改变了我们的乌托邦构想，时间次序的再现方式，以及自我主体的描述与定义。20 这项研究在一定程度上揭示了成功的数字人文研究的构想与思路：预设的关键词通过远距离阅读得到证实或修正，新的关键词形成数据链或图标、曲线，指向潜在的范式、模型，通过再次阅读而连接传统人文的课题，从而厘正已知的知识或创造新的知识，最终体现发现的学术文化价值。

　　如果说数字化的远距离阅读过去是、现在仍然是数字人文研究的最重要的方法，那么现在已经到了重新考虑它的涵义的时候。首先，我们必须摒除弗朗科·莫瑞狄最初所设想的远距离阅读与近读(close reading，又译“细读”)完全对立的立场，重新认可近读的阐释功用，虽然数字人文的近读并不完全等同于传统人文学者的细读。远距离阅读是机器的阅读，是初级阅读，它提供了关键词的谱系;近读是人的阅读，是再次阅读，它为关键词添加时间的坐标，然后为人类关注的现实性问题或终极问题给出可能的答案。远距离阅读与近读的糅合不应视为对数字人文学科特性的消解，恰恰相反，它应看作是电脑科技和传统人文的交叉性的标志。无论如何，数字人文的研究对象依然是文本，虽然这是数字化的文本，是数据通过“数字再现”而产生的文本，也可以说是文本的文本，21 其文本性不言而喻，而文本性及其意义依然是阐释学范畴。数字人文的阐释学，在津德尔特(Joris J. van Zundert) 看来，已从“文本解读的理论转变为知识接受的本体理论”，着重于“把信息转变为知识的过程“。22 数字化工具为我们提供了逼近文本隐喻(allegory of textuality) 的新手段，而研究者用心的近读和机器强大的远读仍然是领悟文本隐喻的必然途径。

　　综而论之，偏重数字工具还是重视学术发现是当今的数字人文面临的一个抉择。如果我们只是继续或重复早期数字人文学者的研究思路，把编码制图作为首要任务，止步于采集新的数据来证明已知的结论，那么数字人文将不会得到学界的尊重，永远处于失望的低谷之中。数字人文的突破之路在于把关注的重心从工具理性自我把玩转移到外向性的、可传达的发现性学术。这要求我们重新思考数据本身的价值及其对于人文研究的意义，相信数据的言说意义，但不迷信数据是社会现实的绝对、唯一的再现。在当今“数据崇拜”风行一时的数字化时代，这当然是一件很难的事情。然而，因为数字人文占有数字工具技术与人文传统精神的交叉优势，数字人文学者对于破解这个难局负有义不容辞的责任。正因于此，我对数字人文的未来仍然抱有期待和希望。

上一篇：项目式学习在识字教学中的运用

下一篇：教育信息化建设与中国各层次教育难题破解

您身边的学术顾问

数字人文的工具理性、学术价值与研究成果的评估

多对一·精细化服务