摘 要 个人信息保护立法应基于个人和信息处理者之间的资源及能力不平等状况,针对自动化决策的平等盲区,设置一系列体现实质平等化的权利义务分配方案,即强化对个人信息主体的赋权并严格化信息处理者的义务,最终在二者之间促成一种制度性均势。《个人信息保护法》遵循了公平信息实践的基本框架,构建了以权益保护为核心的个人信息保护框架和算法纠偏机制,但仍存在若干不足之处。尽管制度设计和算法规制水平很重要,但平等原则在个人信息保护领域的生根落地和实现算法公正,从根本上取决于运行法律制度和自动化决策的社会本身平等与否。
关键词 个人信息立法 平等 自动化决策 公平信息实践
陈林林; 严书元, 华东政法大学学报 发表时间:2021-09-20
一、引言
平等既是一条基础性的法律原则,也是社会主义核心价值观的重要内容之一。现代社会的立法皆是在不同原则或价值目标之间进行平衡的产物,尽管《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)未将平等明示为立法原则或目标,但文本第 1 条将“保护个人信息权益”和“促进个人信息合理利用”同时列为立法目标,体现了立法者在权益和效率之间寻求平衡,进而在资源分配上实现平等对待公民个人和信息处理者的立法理念。但这只是初阶的平等,旨在消除或降低人与人之间、不同法律主体之间在人格资源上的差异,更深层次的平等应当是促进他们以特定方式行动或达到目标的能力平等。〔1〕就个人信息的立法保护而言,促进能力平等尤为重要,因为在由互联网、大数据和自动化决策建构起的数字社会中,技术已然成为一种隐性权力。缺乏信息采集、保护和处理技术的普通公众和各种信息处理者之间存在明显的能力不平等乃至“数据鸿沟”。〔2〕公民个人的数据形象不仅被“老大哥”尽收眼底,还被众多拥有数据处理技术的“小老弟”——通信公司、互联网平台、企业和医院等——看在眼中、算在心里。〔3〕与此相应,个人信息收集、使用规则不透明以及个人信息被过度收集、使用等现象,成了个人信息保护立法进程中社会公众反映最强烈的问题。
个人信息收集、使用规则不透明以及个人信息被过度收集、使用等问题,和数字社会中大规模采用的自动化决策存在直接的相关关系。自动化决策一般包括三个阶段:数据收集阶段、使用机器学习算法建模阶段和最终决策阶段。以机器学习算法为基础的自动化决策,需要收集、分析、择取并应用海量的个人信息,〔4〕这不仅与保护隐私权以及个人信息权益之间存在张力,还会对公民其他权利(尤其是程序性权利)和社会平等产生影响。机器学习能够在海量数据中发掘出潜藏的相关性,对这些相关性的发掘利用,使得人们的社会认知和行为方式不断得到更新,并最终促成社会结构的重组。已有研究表明,尽管机器学习和自动化决策提高了效率,但也带来一定的副作用——歧视效应或曰算法歧视。〔5〕有关个人信息的大数据应用不仅会通过各种方式侵扰人们的私生活,还会加剧现有的社会不平等并创造新的不平等。〔6〕由于机器学习和自动化决策的专业性、保密性和黑箱化特征,法律很难对涉嫌歧视的算法本身进行事后审查或事先预防,因此在个人信息保护立法进程中,有必要在能力不平等的普通公民和信息处理者之间进行一些纠偏性的权利义务分配,以达至实质性的地位平等并真正实现对个人信息的法律保护。
二、自动化决策的平等盲区
依据《个人信息保护法》第 73 条的界定,自动化决策是指通过计算机程序自动分析、评估个人的行为习惯、兴趣爱好或者经济、健康、信用状况等,并进行决策的活动。自动化决策的输入端是个人信息数据,输出端是对自然人的行为习惯、兴趣爱好或者经济、健康、信用状况等作出的分析和预测。它所应用的工具是计算机程序即算法,核心特征是自动化。与自动化决策紧密相关的一个概念是“画像”。画像是快速分类处理信息的一种活动,类似于“贴标签”,即通过外表、兴趣爱好、职业、地区等个人信息,将其划分到某个类别当中并赋予相应的个人特征,最后据此来决定后续的处理或对待方式。〔7〕欧盟《通用数据保护条例》(以下简称“GDPR”)第 4 条对其的概括是:为评估与自然人相关的某些个人情况,特别是为了分析或预测该自然人的工作表现、经济状况、健康状况、个人偏好、兴趣、可信度、行为、位置或行踪,而对个人数据进行的任何形式的自动化处理和利用。显然,“画像”展示的是一个“被给定的量化身份”,〔8〕它和真实世界的公民个人状况必定存在或多或少的偏差,并导致后续的机器学习和自动化决策出现偏差和歧视。
以机器学习算法为基础的自动化决策天然地存在平等盲区。首先,它对个人信息的处理方式不可能做到完全平等。其一,输入算法的数据在质和量两个方面决定了机器学习自动化决策的可靠性。在量的方面,被用来训练机器学习的数据越少,所得结果与实际情况的偏离度越大。在质的方面,数据来源以及数据所附标签本身存在偏差。当被输入算法的数据本身存在偏见和歧视时,很难预期能获得公平公正的决策。以就业领域的性别平等为例,若以往招聘案例中受雇佣女性比男性更少,那么关于女性员工的数据就不如男性员工的数据可靠。〔9〕其二,算法设计者在编程时,不可避免地会嵌入特定的价值目标。算法为解决问题而生,因而提出问题或设定目标是一个更具决定性的步骤。当算法设计者拟定的特定问题或算法运行标准存在平等性偏差时,自动化决策必然会造成不平等问题。极端例子就是在缺乏正当理由的前提下,设计者使用机器学习算法开发出一个按种族、性别或宗教过滤用户的差别对待模型。当然,这种事例在商业和公共领域并不常见,更常见的是另一种容易被忽视的算法,即将各种更微妙的、看似无关的因素与种族、性别、宗教、政治观点等相勾连,替代后者这些敏感因素成为新的过滤条件,从而将歧视性筛选机制隐蔽其中。例如,通过分析邮政编码来评估少数族裔,或者以“订阅特定杂志”来替代性别。〔10〕其三,机器学习所运行的算法逻辑不同于演绎推理逻辑,因而容易忽略因果性并夸大相关性。通过分析大量数据,机器学习能够发现不同数据之间的某种相关性,但无法解释为什么会产生这种相关性。即便开发者在开发过程中没有代入偏见,机器学习自身也会产生“偏见”。在招聘的应用场景中,机器学习基于既有数据会得出一名女性求职者不大适合担任首席执行官的结论,因为在现实职场中女性比男性更少有机会在大企业中升到主管级别,但它并不考虑也无法解释为什么会出现这种现象。因果性分析超出了机器学习的能力范围,而这种忽略因果关系的算法黑箱过程,令看似客观的机器学习结果隐藏了偏见和不平等,同时还阻断了追责路径。
其次,以机器学习算法为基础的自动化决策会产生“马太效应”或“滚雪球效应”。差别对待是机器学习算法的内在逻辑,其发掘出的模式和相关性被用于区分、排序和过滤用户群体。无论是在算法建模阶段还是自动决策阶段,这种差别对待都是贯穿始终的。〔11〕机器学习处理个人信息的第一道工序就是分类。当一家互联网企业招聘“优秀”员工时,机器首先在现有数据基础上学习哪些员工特征与“优秀”表现相关。一旦机器学习捕捉到“男性”“身体健康”“35 岁以下”“研究生以上学历”等特征或编码,那么在自动化决策阶段,这些特征所构成的差别对待将被放大:具备这些特征的应聘者得到了较多工作机会或较好待遇,不具备这些特征的应聘者即便在其他方面表现优异,仍将被淘汰出局。换言之,机器学习算法很容易受到程序员、已有前置决策、用户及 / 或社会偏见的影响,从而生成歧视性结果。〔12〕随着机器学习和自动化决策渗入社会生活的方方面面,“强者恒强,弱者愈弱”的局面将越发难以避免,因为机器学习会反映并强化社会中持续存在的不平等。
最后,机器学习算法处理个人信息时经常出现“信息溢出效应”。算法通过对群体偏好的分析,推测属于该群体的个体之特征,这一过程实际就是对个体进行脱离语境的画像或贴标签,会伴生信息的过度解读现象或“溢出效应”。例如,某网购平台对一名摇滚唱片购买者贴上了摇滚音乐爱好者的标签,但实际上该消费者购买这张唱片只是当作礼物送人。类似地,一旦你在亚马逊网站为他人代购了一本关于强迫症的书,那么此后无论你何时登录亚马逊购物网站,它就可能向你推送有关强迫症的书籍,并将相关信息置于网页的显著位置,或者向你的邮箱发送关于强迫症书籍的广告。显然,亚马逊网站认为你患有强迫症,追踪你邮件信息的算法也会得出类似结论。〔13〕这种过度解读或错误标签也许不会即刻对现实生活产生影响,但其长期效应可能会很明显。以信用评级或贷款评价体系为例,假设古典音乐爱好者在贷款人数据库中表现出更好的还贷能力,该群体就会因此被赋予更高信用评级或贷款优先性。在自动化决策法律规制阙如的情况下,那名古典音乐爱好者可能因为标签失真而错过贷款机会,进而影响未来的生活。他对哪些信息被用于评价信用和相关信息的获取渠道等问题,很可能一无所知。这就好比匿名人员用未知数据对他进行了指控,而被指控人却无法做出回应。〔14〕
显然,自动化决策过程中的画像会赋予特定群体刻板印象甚至是污名,而刻板印象和污名化恰恰是社会不平等的开始,因为它们反过来会对特定群体中的个体产生负面影响。自动化决策带来的显性或隐性差别对待、直接或间接歧视,被冠名为一种新的不平等或歧视形式——“数字歧视”(Digital Discrimination)。〔15〕它根据一些难以解释的,甚至是偶然的相关性,包括历史性、代表性偏差、加总偏差、习得性偏差、评估偏差、运用偏差等原因,将特定群体中的所有个体贴上同一标签,这实际是对个人平等权的减损。承认并维护个人之间的平等地位,是对个人尊严和人道主义的捍卫,因此它既是一条法律原则,也是道德实践领域的一种规范性要求。对人的分门别类,诸如“人上人”和“人下人”的划分,在道德上被认为是残忍的。因为某人的弱点而消除其追求个人全面发展的可能性,还被认为是错误且有害的。〔16〕
在应用自动化决策的数字社会中,大部分民众将被算法视为某个社会群体的成员,而不再是某个公民个人。较之社会中的主流或优势群体,有色人种、移民、不受欢迎的宗教团体、穷人和其他被压榨的边缘化人群,会受到更多的数据监控及信息追踪。倘若被算法归入“人下人”或“边缘化群体”,公民在获取公共福利、穿行高安防街区、登入医保系统、进行保险理赔或跨越国境时,就不得不接受更高级别的个人信息采集。一旦他们成为算法设置的怀疑对象并接受额外审查时,数据还会进一步强化他们的边缘性。以美国中部地区福利资格自动化处理系统、洛杉矶无家可归者住房协调系统和阿勒格尼县虐童家庭筛选系统为例,研究者认为随着数据跟踪和自动化决策系统在治安管理、政治预测、市场营销、信用报告、刑事审判、企业管理、金融及福利项目管理中的常态化,叠加这些系统的全覆盖、精细化和复杂化趋势,尽管表面上提高了效率,实际却营造了一所“锁定穷人、管制穷人甚至惩罚穷人”的“数字济贫院”,以及一种“自动不平等”(automating inequality)的决策背景和信息反馈循环。〔17〕
三、能力平等、公平信息实践与个人信息保护
在既有的政治—法律理论及实践中,平等包含了两种形态和三个维度:形式平等和实质平等,以及福利、资源和能力的平等。〔18〕形式平等要求对相同的个体给予相同的待遇,即无差别的一致对待。形式平等会导致“间接歧视”,例如工作薪水高,但要求全职工作,实际上就间接歧视了受困于家庭责任的女性。鉴于形式平等无法实现“实践中的全面平等”或“合理的差别对待”,采取有利于特定弱势群体之特别措施的实质平等,逐渐为现代政治法律制度所采纳、推广。美国《民权法》中的“平权行动” (affirmative action)就是旨在提升女性和少数族群的就业机会和工作优待的行动,欧洲法中的“积极行动”(positive action)政策,更是包括了五种消除间接歧视、提高边缘群体就业机会的行动。〔19〕通过资源(此处是就业机会和工作条件)的差别化分配实现实质平等,既出于“全面平等”、提高社会整体福利水平的后果考量,也立足于事实层面的依据——每个人利用资源的能力水平是不平等的。
资源不仅包括收入和财富,而且包括自由、权利和机会。如果人们利用资源的能力存在差异,那么即便人人都拥有平等的资源,每个人实际的生活质量仍将是不平等的。例如,与健康者相比,一位残障者即便拥有同样多的资源,其生活仍将处于较低的水平,因为他不仅要把相关一部分资源用于治疗疾病,也缺乏用相关资源获取更多资源的便利和技能。阿玛蒂亚 ? 森进一步指出,自然环境和社会制度的差别,也会赋予人们不同的能力空间或行动力,并导致类似的不平等结果。〔20〕因此,资源平等只是实现平等的起点或必要条件,实现平等的关键在于保障人们“基本能力平等”——具备满足基本需要、去做重要事情的能力,包括满足吃穿住行需要的能力、自由行动的能力、参与社会政治生活的能力等。〔21〕在法治国语境中,国家负有保障个体维护其基本自由和法律权利的能力,否则无法实现法治并保障人权。因此,以能力平等为要旨的平等原则,既是法律平等权的题中之义,也是国家扶贫政策、法律援助制度和其他一系列特殊群体优待措施的理论基础和制度理念。
从能力平等的视角观之,数字时代个人信息保护需要克服两重障碍:一是公民个人和信息处理者之间的资源不平等,主要是信息或数据获取和支配的不对等性;二是公民个人和信息处理者之间的能力不平等。在法律理论中,不同主体之间的法律平等权由两个层次构成:第一个层次是平等对待的权利,指向机会、资源或义务的平等分配;第二个层次是作为一个平等的主体受到同等尊重和关照的权利。〔22〕在个人信息保护领域,倘若立法者无视公民个人和信息处理者之间的能力不平等,就会在上述两个层面放任实质不平等的状况,也无从解决个人信息收集、使用规则不透明以及个人信息被过度收集、使用等问题。
信息资源分配和信息处理能力的平等化可以概括地称为信息平等,它是信息时代社会公正的一项基础内涵。从形式上看,信息平等是指信息主体——公民个人之间、公民和信息处理者之间以及信息处理者之间——在信息利益关系上的平等或均势状态。〔23〕公民个人与信息处理者之间的利益或权利义务关系,因为各自能力不平等而必然会导致一种失衡状态,所以历来是各国个人信息保护立法的调整对象。例如欧盟 GDPR 申明“本条例保护自然人的基本权利和自由,尤其是自然人的个人数据保护权”,并将条例的适用范围限定在“部分或全部以自动化方式对个人数据的处理”;德国《联邦数据保护法》也规定“本法的目的是保护个人”,适用范围是联邦公共机构、各州公共机构和私人机构 “对个人资料的收集、处理和使用”。在信息资源和能力领域的实质平等化举措,可归入数字时代的一场社会公正运动——公平信息实践(fair information practices)。
“公平信息实践”滥觞于美国法上的隐私权保护,目标是为公民隐私保护提供一系列公认的、跨国界的做法。公平信息实践最早的版本,是美国卫生教育福利部递交的一份立法建议报告——《公平信息处理条例》。这份报告被誉为信息时代的“权利法案”,它为个人隐私和个人信息保护设立了五条准则:(1)任何收集个人数据的自动化系统,都不得秘密存在;(2)对个人数据的收集以及使用情况,必须能为相关个人所知晓;(3)个人有渠道阻止用于特定用途的个人信息,未经自己同意被移作他用;(4)个人有渠道修正或增订与自身信息相关的数据记录;(5)任何机构在生成、保存、使用、传播可识别的个人数据时,必须确保数据的可靠性,以及确保数据用于原定的目的,同时对数据的误用或滥用负有合理的注意义务。〔24〕直至2008年,美国国土安全部隐私办公室又提出了八条“公平信息实践原则”:(1)透明性原则:对个人身份信息的收集、使用、传播和维护过程,国安部皆向相关个人公开或知会;(2)个人参与原则:国安部应当尽可能让个人参与对其身份信息的使用过程,并征得个人同意对其身份信息的收集、使用、传播和维护;(3)目的明确性原则:具体且明确地说明国安部收集个人信息的权限范围,以及为了哪个或哪几个目标使用个人身份信息;(4)数据最小化原则:国安部只能收集为了实现目的所必须的、直接相关的个人身份信息,一旦目标实现就不得继续保存个人身份信息;(5)使用限定原则:个人身份信息只能用于公开告知的目的,和外部主体共享信息的理由必须符合个人身份信息收集时的目的;(6)数据质量和整全性原则:在尽可能的范围内,确保个人身份信息的准确性、相关性、及时性和完整性;(7)安全性原则:国安部应当采取恰当的安全保障措施,保护个人身份信息免遭以下风险——灭失,未经授权的访问或适用,遭破坏,被篡改,意外或不当泄露;(8)责任与审计原则:国安部就以下事项负有责任——遵守相关原则,培训使用个人身份信息的内部工作人员和外包工作人员,审计个人身份信息的实际使用情况是否遵守了相关原则和各项隐私保护要求。〔25〕
概括而言,公平信息实践的要义有二:一是通过法律赋权的方式,授予能力和信息弱势地位的个人以制约、抗衡信息处理者及算法权力的权利或手段;二是对借由“技术赋权”获得信息优势地位的个人信息处理者,设置一些针对性的、严格化的注意义务和法律责任。以 GDPR 为例,其赋予数据主体的法律权利包括知情权、数据访问权、纠正权、删除权、限制处理权、移植权、拒绝权和自主决定权等。在普通公民与个人信息处理者之间这场不平等的博弈中,个人最重要的筹码莫过于指间的同意或拒绝按键(决定权),这是一种形成或否决信息处理法律关系的控制力。〔26〕但行使决定权的前提是知情权,即个人应当明确获知自己的信息正在被处理,特别是那些对自身权益会造成重大影响的自动化决策,除非是在犯罪侦查等涉及公共安全而需要保密的领域。
如果说知情权和决定权的行使能够限制或拒绝个人信息处理者对其个人信息的处理,属于一种被动防御,那么算法解释权、数据修正权和自动化决策拒绝权皆可算作积极防御。以算法解释权为例,尽管学界普遍认为其面临技术层面不可行、数据主体知识鸿沟、侵害知识产权或商业秘密等问题,但仍得到了立法者的认可。GDPR 序言部分第 71 条指出,数据控制者应明确告知数据主体具有获得人为干预、表达观点、对决定要求作出解释、提出质疑的权利,这被认为是创设了个人的算法解释权。〔27〕算法解释权有助于个人免于直接被含有偏见的机器学习算法宰制。为防止数据错误导致的算法歧视溢出,损害个体平等权利,立法者必须在知情同意的基础上再赋予个人对信息的修正权。而要行使修正权,个人还必须具有查阅、复制等数据访问权。访问权和修正权旨在增强个人对自身信息的控制力,在牺牲一定经济效率的条件下,提高自动化决策的准确性,避免个人被错误标签化。此外,由于算法黑箱的存在,算法不公的威胁始终难解,特别是机器学习算法可能从毫不起眼的个人信息中挖掘出鲜为人知的相关性,而这种相关性有时关乎个人隐私与人格尊严。为了从源头上杜绝平台、企业利用机器学习算法不当或过度开发个人信息,立法者还应当赋予个人自动化决策拒绝权和数据删除权(被遗忘权)。以上个人权利的实现有赖于信息处理者的积极配合,因此每一项个人信息权利都对应个人信息处理者的相应义务,如决定权对应征得个人同意的义务。但个人信息处理者与普通公民在信息技术领域内地位显著不平等,且信息处理者往往缺乏动力保护数据安全、维护个人隐私,因此还需要通过立法对技术优势方课以专门的数据安保义务,通过监管手段对违法行为进行问责,加重信息处理者违法成本,形成一整套约束个人信息处理者的“义务—监管—问责”体系,使其不敢跨越红线。
自动化决策算法涉及对公民资源、机会、风险、权利、义务等的分配,内含了一种“权力—支配”关系,具有准公权力的性质或者公权力的一些属性。〔28〕为避免权力滥用,适用于公权力的约束在数字社会时代同样可以施加给算法权力主体。例如,公开(透明性)原则是程序正义对权力运行的要求。 GDPR 第 13 条第 2 款规定:“控制者在获取个人数据时出于证实处理过程的公正和透明的需要,在必要的情况下应当向数据主体提供如下信息……(f)控制者对个人信息的自动决策机制,包括第 22 条第 1 款以及第 4 款所述的数据画像,在该种情况下控制者至少应向数据主体提供数据画像过程中运用的逻辑,以及该种数据处理对数据主体的重要性和可能产生的后果。”〔29〕使数据控制者负有公开、透明义务,向数据主体告知数据处理的目的与方式,接受政府、社会的监督,这有助于防止数据控制者开发、利用歧视性算法。从 GDPR 第 22 条在欧盟的执行情况看,目前极少数国家(如意大利和罗马尼亚)将其视为禁令,不允许自动化决策的使用,大多数欧盟成员国则认可其权利性质,但是在某些应用场景中(如司法和行政)依然禁止自动化决策的使用。
信息泄露、数据错误导致的现实溢出效应,对互联网平台企业自身的影响不大,其缺乏动力去完善个人信息安保措施。因此需要法律介入,给个人信息处理者施加数据安全保障义务。安全保障义务以原则的形式被提出最早可追溯到 1980 年 OECD 版本的公平信息实践。此后各版本的公平信息实践越发重视个人信息处理者的风险防范义务。〔30〕GDPR 第 35 条第 1 款规定:“处理,尤其是运用新技术进行处理,考虑到处理的性质范围、背景和目的,可能对自然人的权利和自由产生较高风险,因此在进行数据处理前,控制者应对拟进行的处理操作进行个人数据保护影响评估。”〔31〕该条第7款指出,数据保护影响评估应当至少包含对数据主体权利和自由风险的评估。个人信息处理者的风险评估义务有助于促使其更广泛地考虑机器学习自动化决策的负面影响,并积极采取数据保护措施。
四、《个人信息保护法》中的实质平等化及其限度
新颁布的《个人信息保护法》同样遵循了公平信息实践的基本框架,构建了以权益保护为核心的个人信息保护框架和算法歧视纠偏机制。首先,该法总则部分借鉴国外立法,规定了个人信息权益保障原则(第 1、2 条)、目的明确及使用限定原则(第 6、7 条)、数据最小化原则(第 6 条)、公开(透明性)原则(第 7 条)、数据质量和整全性原则(第 8 条)、安全性原则(第 9 条)。
其次,《个人信息保护法》第 24 条以法律赋权方式对自动化决策进行了规制:涉及个人重大权益的决定,个人有权要求信息处理者予以说明(算法解释权),并有权拒绝个人信息处理者仅通过自动化决策的方式作出决定(自动化决策拒绝权);与此同时,还规定运用自动化决策的信息处理者有义务保证决策的透明度和结果公平、公正。最后,《个人信息保护法》规定了个人信息处理者必须承担的一系列呼应性义务和责任,包括信息安全保障义务(第 51 条)、合规审计义务(第 54 条)、个人信息保护影响评估义务(第 55、56 条)、安全事件通知义务(第 57 条)、平台特殊义务(第 58 条)等。
从《个人信息保护法》的内容来看,立法者注意到了公民个人和信息处理者之间的资源不平等和能力不平等,并尝试用一些纠偏性的权利义务分配措施,不断达致二者的实质化平等并实现对个人信息权益的法律保障,解决个人信息收集、使用规则不透明以及个人信息被过度收集、使用等问题。但这很可能只是一种愿景,或者说只提供了一种可能性,因为该法实际只提供了一个框架性规定。由于信息时代权利侵害和维权方式皆不同于传统社会,那些权益条款如何在现实中真正发挥实效,仍是存有疑问的。例如,《个人信息保护法》第 47 条规定了个人信息删除权及信息处理者的删除义务,符合五种情形之一时,“个人信息处理者应当主动删除个人信息;个人信息处理者未删除的,个人有权请求删除”。在个人信息权益遭受侵害时,第 69 条还明确规定了过错推定原则,即“个人信息处理者不能证明自己没有过错的,应当承担损害赔偿等侵权责任”。但在现实世界中的普通公民,实际并不清楚信息处理者是否收集、删除、保存或不当使用了自己的个人信息。就像前面提及的那名古典音乐爱好者,他对哪些信息被用于评价信用以及相关信息收取渠道和使用等问题,可能是一无所知的。即便信息处理者有时的确侵害了《个人信息保护法》所保护的个人信息权益,被侵害人却往往无从知晓,也无法做出回应。
机器学习能够发现零散性数据之后的关联性,一条微不足道的数据或信息也有可能引出关键情节或人物,这让个人生活的“可隐性”或隐私岌岌可危。信息、关联性和隐私之间的关系,可用以下轶事作一说明:人们在聚会时询问一位神父,问他在忏悔室里是否听到过什么非同寻常的故事。神父说:我的第一位忏悔者就是一个很好的例子,他因杀人而忏悔。几分钟后,一位优雅的绅士也来参加聚会,他看到神父后热情地打了个招呼。有人问绅士如何认识神父的,他回答说:因为我很荣幸地成了他的第一个忏悔者。〔32〕基于信息能力不平等和身份信息流动对个人的负面影响,主流法律理论皆将个人信息归入人格权或隐私权模型进行保护。但站在个人信息处理者的立场上,个人信息数据最突出的属性却可能是商业或治理价值,而这种立场也是持之有据的,因为《个人信息保护法》第 1 条将“保护个人信息权益”和“促进个人信息合理利用”同时列为立法目标。如本文开篇所述,该条初看之下体现了立法者在权利和效率之间寻求平衡,进而在资源分配上实现平等对待公民个人和信息处理者的立法理念,实际却可能引入了一匹“特洛伊木马”。因为个人信息权益保护和个人信息利用经常是一对矛盾,至于特定事例中的个人信息利用“合理”与否,往往取决于不同利益主体的实力和博弈。结合信息能力不平等的现状,尤其是个人信息处理者的技术赋权、管理地位优势和组织化优势,可以预见该法基于公平信息实践采取的一些实质平等化措施——无论是个人信息隐私权还是信息自主权设置——最后都很难落地生根。
当然,《个人信息保护法》也有一些在规范层面对信息处理者“不公”的实质平等化措施,主要涉及对自动化决策或算法规制的条款。该法不仅将公开性或透明性原则列为处理个人信息时应当遵循的基本原则,还对个人信息处理者设置了告知义务以及说明信息处理规则、方式的义务。根据该法第 24 条的字面表达,个人只要主观上认为该自动化决策会对其利益造成重大影响,就可以要求个人信息处理者向其解释、说明该决策的作出方式。从文义解释的角度看,“个人权益”“重大影响”等具有强人身相关性的措辞,表明个人信息处理者的义务不仅是公开算法所依据的抽象原理,还要说明个案层面的决策过程。这会导致个人信息处理者陷入“履行不能”的境地。〔33〕因为若要向用户详细解释自动化决策的过程,信息处理者就必须对算法运行的记录予以保存。但机器学习技术在本质上是个“黑箱”,而且机器学习算法做出每个决策后,会根据这一新的结果更新已有的模型,将每个新的观察数据作为训练数据的一部分。因此,算法本身处于动态更新当中,类似于南美热带雨林中一只扇动翅膀的蝴蝶,即使知道源代码和最初数据也难以精确把握机器学习最终的结果。〔34〕此外,算法解释还面临商业秘密抗辩和算法可视化障碍,〔35〕因此可行的履行解释、说明义务的方式,只能限于向个人较宏观地描述算法系统的构建方式,以及说明处理者如何选择数据,训练、测试算法和评估输出结果。
另一个是自动化决策的拒绝权。在 GDPR 中,针对单独自动化决策,数据主体适用拒绝权存在例外情形,即单独自动化决策是达成和履行合同的必要条件;或者法律另有规定;或者数据主体明示同意该决定。满足三种豁免事由之一,数据主体就不能行使拒绝权,当然数据控制者仍然应当采取适当的措施保护数据主体的合法权益。同时,即便在例外情形下,对种族、民族、政治观点、宗教、基因、健康、性取向等敏感信息的自动化决策依然受到严格限制。但根据《个人信息保护法》第 24 条,拒绝权的行使并无例外情形的限制。只要权利人主观上认为单独自动化决策会对个人权益造成重大影响,就能行使拒绝权。但在单独自动化决策是履行合同所必需或个人曾明示表达过同意的情况下,不恰当地行使拒绝权将极大地增加交易成本,阻碍技术创新和行业发展。而《个人信息保护法》对例外情形未留余地,在实践中可能会难以执行,建议遵从国际惯例,补充规定拒绝权的豁免事由。
与自动化决策相关的,还有《个人信息保护法》第 47 条规定的个人信息删除权,因为删除权的行使会对自动化决策产生复杂的连锁影响。当某人知悉自己的个人信息已被纳入机器学习算法模型之中,如果他撤回同意,那么个人信息处理者只能删除该数据,或者停止除存储和采取必要的安全保护措施之外的处理。这有可能意味着既有的自动化决策模型将不得不被弃用。这一规定倘若真的落到实处,对大数据开发、使用会产生釜底抽薪的效果,也让平等化蒙上了矫枉过正的色彩。笔者认为,不宜将“撤回同意”作为信息处理者必须删除个人信息的事由,除非是应个人的请求,否则就混淆了“撤回同意”与“行使删除权”这两个法律行为。此外,应当根据个人信息处理的不同阶段限制删除权的溯及效果,允许经过匿名化处理的个人信息保留在自动化决策模型中,也允许个人信息处理者提出非商业性的抗辩理由或豁免事由。〔36〕
五、余论
个人信息保护领域的规范设置和权益保护是一项前沿性的交叉法学课题,需要结合宪法、民法、网络安全法、数据安全法和电子商务法等领域的规范和法理展开,也需要在公民个人和信息处理者、权利与效率、法律与科技创新之间促成一种制度性均势或平衡。因为从历史和社会的视角看,法治与共享共治互为因果:没有哪个利益群体强大到足以支配其他群体,作为正式制度的法律,代言的是多数群体而非某一群体的利益;一旦实现了制度性均势,公权力机关、社会机构和公民个人的行为就会变得可预测、可理解和稳定,并且是受到约束或遵循规则的。〔37〕因此,助推均势、代言信息公平的平等原则,既是可持续法律制度的一条基本原则,也是良法善治的基础。在个人信息保护的立法进程中,立法者应当着眼于不同主体在信息资源、信息能力方面的不平等事实,在数字弱势群体、普通公民和信息处理者之间设置一套实质平等化且可操作的权利义务分配方案,既强化对个人信息主体的法律赋权,又严格化个人信息处理者的法律义务。否则难以维护信息时代的公民基本自由权,也不可能从根本上抑制个人信息收集、使用规则不透明以及个人信息被过度收集、使用等现象。
当然,平等并未涵盖、也不可能解决个人信息保护领域的所有问题,而且平等自身在具体事案中的标准或要求,还要结合问题和语境才能得以展开或明确化。就个人信息保护立法中的热点议题——自动化决策或算法规制而言,防控歧视效应当然属于平等所关切的问题,但最大的问题却可能是数据驱动型决策之际的法律程序缺位或程序性权利丧失,以及由此导致的信息不对称和权力不对称,至于歧视效应实际可以归为这一状况的副产品。〔38〕因为在人工或非自动化决策的场景中,法律程序缺位或程序性权利丧失,同样会导致信息不对称和权力不对称,并产生歧视性或不平等的决策结果。随之而来的一个关键性问题是,较之人工或非自动化决策,已有大规模应用的自动化决策或算法在公平性尺度上的统计平均值或中位数,是更低还是更高?算法歧视效应的根源,是技术不成熟、规制不到位还是另有原因?自动化决策的反对者认为,自动化决策系统提高了效率却导致不平等,营造了一所“锁定穷人、管制穷人甚至惩罚穷人”的“数字济贫院”。这种观点是缺乏大样本统计数据支撑的,而且只要简单回顾一下人类历史,就能发现在每一个阶段、每一种社会以及每一个国家中,穷人或其他任何弱势群体遭受更多不平等或不公正的对待,乃是一种普遍现象。“穷人”或“弱势群体”这个种属概念,本身经常和遭遇不公乃至苦难联系在一起的,所以他们遭受歧视的现象和自动化决策之间实际并不存在因果关系,有时连相关性都不存在。
由此可以推论,尽管制度设计和算法规制水平很重要,但个人信息保护立法中实质平等化措施的生根落地和实现算法公正,在根本上取决于法律制度和自动化决策的运行环境平等与否——特定国家的社会平等状况究竟如何。瑞典学者大卫 ? 萨普特运用脸书广告的一项算法推送实验,也证明了这一点。该实验预设每千名男性中对程序员职位感兴趣的人数是每千名女性中感兴趣人数的两倍,并借助脸书推送招聘广告。在编辑招聘广告时,实验者未注明性别要求,但勾选了若干和程序员有较强关联的算法选项——角色扮演游戏、科幻电影和漫画。广告推送后,数据统计显示,对收到这份广告的样本人群而言,算法不存在性别歧视。但收到这份广告的男性数量是女性的四倍,因此在直观上结果有失平等。第二次实验者随机勾选了更多的算法选项,结果是男女两性收到广告且对职位感兴趣的数量比和每千人中实际感兴趣的数量比相一致,而且与男女两性对职位感兴趣却没收到广告的数量比也一致,因此修改后的算法显得更为平等。但是收到广告的女性中只有三分之一的人对职位感兴趣,而收到广告的男性中有一半的人感兴趣,那么这是否意味着对男性存在歧视?该实验说明,不平等现象就如打地鼠游戏:将地鼠从一个地方敲下去,它就会从另一地方又冒出来;在群体之间进行校准和得到相同的招聘误报率及漏报率,对算法来说是不可兼得的。〔39〕实际上,只有当学习、掌握计算机编程的男性和女性一样多时,才有可能设计出完全没有偏见的算法招聘广告,而这恰恰取决于特定社会中性别平等的实现状况。
论文指导 >
SCI期刊推荐 >
论文常见问题 >
SCI常见问题 >