出版业大数据应用策略探究

来源：树人论文网发表时间：2021-10-12

简要：摘要大数据将推动出版业进入智能化发展新阶段，具有内容创作领航、读者阅读赋权和出版流程再造等优势。通过行业调查和案例分析发现，出版业在应用大数据的过程中，存在过度

　　摘要大数据将推动出版业进入智能化发展新阶段，具有内容创作领航、读者阅读赋权和出版流程再造等优势。通过行业调查和案例分析发现，出版业在应用大数据的过程中，存在过度讨好读者、复合型数字出版人才缺乏、大数据杀熟、用户隐私保护堪忧和数字资源版权保护不实等问题。因此，要秉承导向为先、人才为本、盈利为基、保护为要、制度为纲的大数据应用策略，全方位推动我国出版业实现高质量发展。

出版业大数据应用策略探究

　　邱然，科技与出版发表时间：2021-10-11

　　关键词大数据;出版业;应用策略

　　《中国大数据市场发展状况与投资规划分析报告2020—2025年》显示，大数据将改变传统出版业的流程和模式。“十四五”期间，亟需厘清出版业大数据应用过程中存在的主要问题并提出应对策略，以壮大出版业发展新引擎，赋能出版业转型升级，推动出版业高质量发展。

　　1 出版业大数据应用现状

　　现阶段，大数据在出版业的应用分为数据采集、数据生成、数据分析、数据使用四个方面。数据采集，包括用户数据采集、交互数据采集和内容数据采集;数据生成，包括专业生产内容(PGC)、用户生成内容(UGC)和设备采集生成内容(DGC);数据分析，是指数据分析专业人才通过信息技术融合分析，为出版业发展提供分析报告、咨询建议等;数据使用，是以数据分析为参考，为内容创作、读者互动、出版流程升级提供帮助，带来出版业的新思维、新业态和新发展。

　　1.1 内容创作领航

　　为解决传统出版业的内容供给侧问题，大数据技术从选题策划、写作风格、预选稿件三个重要环节为出版业内容供给提供了新的发展引擎。

　　首先，助力选题策划。小数据时代，“新选题”策划多依赖于编辑个人的学识、经验和市场判断力，这种选题策划方式主观性过强，风险较大。而大数据技术能联动各出版环节，从策划、编辑、印制、发行、营销、库存与销量的动态数据中判断新选题面世的最佳时机，从不同视角评估新选题是否符合市场需求，从过去的完全依靠编辑个人经验的选题策划模式逐步转向客观数据与主观经验相结合，避免编辑主观要素的过多介入，减少了新选题的投资风险。

　　其次，调整写作风格。大数据技术能够引导作者在写作中留意读者偏好，通过调整写作计划、篇章结构、文字风格，使作品能更好满足读者需求。特别是在在线内容创作平台“边创作边更新” 的模式下，读者偏好对作者的写作影响更加明显。在线内容创作平台会设置数据跟踪点，跟踪读者阅读行为，如记录读者的阅读时间、阅读深度、阅读速度，各章节的阅读时间占比，是否连续阅读等，以此推断读者对内容的喜好程度。这些量化的数据会成为衡量作品是否有吸引力的数值基准，并反馈给作者，成为作者调整写作风格的依据。

　　最后，预选畅销稿件。基于大数据技术研发的“畅销书测量仪”(bestseller-ometer)工程，通过分析至少2万本以上的作品，找出畅销书与非畅销书的区别点，放到科学创作解构体系中，在计算机模型的归纳与演绎下从数据驱动的层面洞察畅销书背后的“密码”：题材如何组合?情绪何时转折?使用哪种行文风格?人物怎样塑造? “畅销书测量仪”用算法找到打造畅销书的通用公式。未来，出版商将更多借助大数据技术挑选稿件内容。Inkitt号称全球第一个数据驱动型(datadriven)的在线出版平台，其新创稿件的预判工作交由机器处理，通过精细化、模型化的数据分析，评估该平台哪些潜在的好内容“值得”被出版。[1]

　　1.2 读者阅读赋权

　　传统阅读是读者与文字之间封闭的思想交流行为，电子阅读则推动读者的阅读权限、阅读模式发生变化。从读者体验角度看，出版业应用大数据将使读者获得更佳的互动阅读体验和个性化的购书体验。

　　一方面，互动阅读体验更佳。许多在线内容创作平台将读者赋权为作品的共同创作者或共同编辑，可在阅读中针对宏观的故事情节、人物设定、写作风格，或微观的某个桥段、某句台词，向作者提出修改建议，作者会选择性采纳，读者将得到平台打赏。例如，Findings、Readmill 和Subtext等公司研发出“动态小说”(Active Fiction)项目，通过事先设定的算法，在数据平台上设计出故事发展路径，允许读者选择情节发展、投票决定情节走势、自定义故事结局。国内的中文在线、起点文学、榕树下、红袖添香等平台，也鼓励读者互动，给作品提建议或参与更新部分内容，这种协作出版模式与新的社群建立协同运行，实现“读—创—读”的良性循环。

　　另一方面，购书体验个性化。目前，亚马逊、eBay、京东、当当、天猫等电商平台已启用智能推荐系统，基于用户的常搜词汇、历史购买记录、浏览记录、性别、职业等，分析用户习惯，为用户创建个性化的兴趣权重。例如，新用户在平台注册时勾选的感兴趣图书种类为职场晋升类，而在平台上浏览的最后几本书都是恐怖小说，智能推荐系统会在该用户的兴趣权重中为恐怖小说分配更高的推荐分值，于是用户收到恐怖小说的推荐比例会高于职场晋升类图书。智能推荐系统还能实时滚动推荐平台新上线的作品，让每位读者拥有属于自己的个性化书单。

　　1.3 出版流程再造

　　大数据技术将推动出版流程再造，重构出版产业链。

　　选题策划：组建超大规模的选题数据库系统，实现选题查重、选题对比、选题评估、畅销预测等功能，降低传统选题策划时的主观性、盲目性，助力选题决策。

　　编辑校对：智能编校系统以海量语言数据库为依托，具有自动纠错、敏感词汇排查、协同编撰等功能。自动纠错功能，能快速精准识别稿件中常用词语、固定搭配、古今诗词、专业术语等方面的错误并给出纠正意见;敏感词汇排查功能，能根据时代发展、政策变化及时更新数据库中的敏感词汇，及时排查稿件中的敏感词、禁用词;协同编撰功能，支持机器编撰科普、百科类稿件，支持编辑、作者分别在线撰稿和同时协同撰稿 [2]，还支持数字化在线校对，能够实现外校、内校、作者校等协同校对功能。

　　印刷发行：智能印刷发行系统能够实现耗材的绿色化、印前的数字化、印中的自动化、设备的物联网化，有望解决传统出版业库存积压、仓储成本过高等问题。智能印刷发行系统还能够准确掌握需求侧信息，建立目标用户画像，根据消费者需求确定印发数量，优化供给、降低退货率。

　　营销推广：智能营销推广系统能够锁定目标用户群，建立个性营销、精准投递机制，能够分析出不同地域读者的阅读偏好、哪些图书适合捆绑销售、哪类读者对新书感兴趣，使出版机构的营销人员更直观、准确了解市场动态。在互联网平台，智能营销推广系统可以跟踪挖掘读者的阅读次数、阅读时间和阅读习惯，进行精准图书营销，满足用户动态化、个性化的阅读需求。在实体书店，智能营销推广系统通过手机应用确定用户在书店的停留时间、行动轨迹、往来频次，挖掘潜在用户群。

　　2 出版业大数据应用的主要问题

　　大数据技术推动出版业实现创新发展的同时，也带来了一些问题。通过调查访谈和案例分析发现，出版业在大数据应用过程中遇到的五个主要问题包括：部分“非辨证吸收、过度讨好读者”的现象、复合型数字出版人才缺乏、大数据杀熟问题严重、用户隐私保护堪忧和数字资源版权保护不实。

　　2.1 部分“非辨证吸收、过度讨好读者”的现象

　　调研发现，数据化出版中存在着部分非辨证吸收、甚至过度讨好读者现象。这样的“讨好” 可分为两面性看待：一方面，若是满足人民群众日益增长的美好精神文化生活需要的讨好，自然是没问题的;但是，读者需求也存在着不理性、不客观、甚至集体无理性的成分，非辩证吸收建议、甚至过度讨好会适得其反。在教育出版界，存在部分非辨证吸收建议的问题。关于英雄、战争的故事《刘胡兰》《谁是最可爱的人》《黄继光》《雷锋日记》文章从语文课本删除的事引发热议，编写组回答是，因为部分学生和家长读者提出建议认为这些文章斗争性强，不再合时代发展，不能给现在孩子有正确的引导，取而代之是国外的《爱迪生救妈妈》，教材的编写，事关培养社会主义合格接班人的重要责任，家长和学生作为教材的使用者，有建议权，但编写组应该辨证吸收，试问，我们国家的党史、英雄人物都不能留存于课本中，红色基因如何代代相传?

　　在学术出版界，存在部分不理性现象，比如曾经引发热烈讨论的“赞美师娘的”论文《生态经济学集成框架的理论与实践》就曾经出版成书，前言由作者导师撰写，原本此书销量不佳，后因爆料后，孔夫子上二手书籍卖断货，可见，读者的需求很多时候是不理性、不客观的。

　　在大众出版界，存在过度讨好读者现象，能否讨好读者直接与创作者、出版方、在线平台盈利紧密联系，部分以大数据分析为主要盈利的公司鼓吹“如果你在三秒内没抓住读者眼球，你的作品就失败了一半”，出现了用博眼、虚假、媚俗内容换点击率、销售量的现象。许多以网络文学为题材改编出版的书籍，让读者翻开书就想往下读，尽享简单无营养的阅读快感。然而，这些内容在顺应迎合读者同时，更是消耗其时间、精力、财力，特别是对涉世未深的年轻读者，可能误导其对社会的真实认知。

　　非辨证吸收建议、甚至盲目讨好读者的做法与出版业的长远健康发展，与我们博学明理、修身养性等读书目的，明显背离。

　　2.2 复合型数字出版人才缺乏

　　出版业大数据应用的真正价值不在数据本身，而在于大数据人才对数据的分析利用。数据产业中有四大组成部分：大数据拥有者、大数据技术公司、大数据人才、数据中间商，其中，最核心的部分是大数据人才，他们是整个链条的领导者 [3]。

　　目前，出版业缺乏将大数据技术与出版专业相结合的复合型人才。一方面，新进入者较少，相关调查结果显示，2019年与大数据相关的新闻、出版、媒体行业整体的市场需求超过200万人，而全国高校的相关对口专业的毕业生人数只有越为 70万，到了2020年，这个缺口更大了，达到了227 万，而相关对口专业的毕业生人数仅71.5万。[4] 另一方面，原有行业中专业人才缺乏，众多出版单位从事数字出版的人员，大部分是从传统岗位调配而来，要么只熟悉数据处理，要么只熟悉编辑出版业务，很少有二者皆精通的复合型人才。

　　2.3 大数据杀熟问题严重

　　“大数据杀熟”即“利用自己所拥有的用户数据，对老用户实行价格歧视的行为”[5]。大数据杀熟在出版业具体表现为，对于同一本书或同一个知识付费课程，老客户需要支付更高的价格。传统的商业模式常“杀生”，如在旅游景区，有商店会将地图以高价卖给外地游客。而在以大数据引导的新型售卖环境中，定价规则相反，即“杀熟迎新”。例如，某些电商平台会给刚注册的新用户低于市场价的“体验价”，随着用户使用次数的增加，通过收集大量用户信息，分析出该用户对某个作者、某家出版商、某类图书有较高忠诚度，且对价格不敏感，便被标签为高黏性“熟客”，不能再享受“体验价”，而是进入“被杀熟”的行列。可见，在 “杀熟迎新”的过程中，大数据成为了必备工具，这是对大数据的不合理使用，侵害了消费者权益。

　　2.4 用户隐私保护堪忧

　　用户数据被称为平台发展的“新石油”，用户每次在网上的操作轨迹都会被平台进行分析、挖掘，用户个人隐私保护问题由此而生。

　　出版业对用户大数据进行分析利用、数据溯源、数据共享、信息存储等操作时均伴随着用户隐私泄露风险。例如，用户通过平台注册、阅读、购书时被记录购买习惯、消费能力、收入情况、收货地址等个人信息，但平台的用户信息保密措施和禁止追踪设置做得不尽人意，易被黑客攻击，窃取用户数据。有些公司甚至私下售卖用户信息。调研发现，有的用户在某平台购买了减肥类图书后收到了其他平台的减肥药推送广告;购买了理财类付费课程后收到了某基金公司的推销电话。用户数据一旦泄露或被买卖，会造成不可预估的影响。

　　2.5 数字资源版权保护不实

　　传统出版业一直存在知识产权保护问题，在大数据时代，数字资源版权保护“有法不依、执法不严、违法不究”的现象更为凸显，导致数字资源版权保护面临巨大挑战。

　　第一，法律法规滞后，近年来，与数据版权保护的法律法规出台越来越多，但新兴领域的问题增长也越来越快，需要被保护的问题增速比法规的出台更多更快，造成政策法规滞后、过时问题。第二，侵权成本低，数字作品侵权比传统纸书和音像盗版更难打击，出版纸质书刊均需签署版权合同，约定作品的版权使用范围，但数字化过程中多次执行“复制粘贴修改”这样的洗稿操作太容易。有的网络平台利用算法盗窃其他原创平台稿件，有的作者巧妙盗版他人书籍“去版权”，而执法部门很难追责，于是造成违法不究、侵权成本低、维权成本高的问题。第三，执法不严，海量大数据给人们带来方便的同时也带来新兴领域执法的灰色地带，因牵涉多方利益，权责不清、取证较难等原因，导致执法不严情况时有发生。以上几类问题，导致数字资源版权的保护面临巨大的挑战。

　　3 出版业大数据应用策略

　　3.1 导向为先：树立正确内容导向

　　出版企业要树立正确内容阅读导向，辨证吸收读者建议，不应盲目迎合读者需求，而应多生产陶冶情操、进益认知的好书，引导读者阅读真正有价值的图书，培养读者的良好阅读习惯。这样才能使读者真正受益，而不是一味地被无营养阅读浪费时间、精力和财力。因此，出版企业要把社会效益放在首位，强化社会责任和使命担当，传播正能量。

　　3.2 人才为本：重视大数据人才培训

　　出版业大数据应用贯穿编辑、印刷、发行、信息统计、数据分析等环节，需要既精通出版业务，又掌握大数据分析技术的复合型专业人才。出版业应加强从业人员培训，培养兼具出版业数字化思维和技术应用水平的复合型专业人才，提高他们采集、抓取、筛选、对比、分析出版业大数据的能力。

　　3.3 盈利为基：合规使用，合理盈利

　　大数据“杀熟”问题的背后是大数据的过度挖掘、违规盈利。对此，各出版企业要加强行业自律，公平公正对待读者，避免价格歧视，保护消费者的知情权和公平交易权。[6] 当大数据“杀熟”符合消费欺诈的构成要件时，应引入惩罚性赔偿制度实现惩治与补偿。在大数据“杀熟”案件审议中可以实行举证责任倒置制度，解决消费者举证难、维权成本高的问题。

　　出版业应探索合理的大数据盈利模式。例如，出版企业可以通过大数据技术控制成本、减少库存、节省开支;瞄准细分市场，培养用户的忠诚度;优化图书内容、提高知识服务质量等。

　　3.4 保护为要：加强用户隐私保护

　　中国信息通信研究院发表的《大数据安全标准化白皮书(2020版)》[7]，指出需要从“大安全”的视角去认识和解决大数据安全问题，落实用户隐私安全保护要从技术、人员和立法三方面同时构筑防护网。

　　首先，构建大数据安全体系。围绕突出的安全和隐私问题，实现分布式环境下的并行计算隔离、数据访问控制;升级密码认证、风险控制、安全集成电路设计等信息安全技术;加强对重要数据、敏感数据的分人、分级管控;采用加密处理、审计追踪等安全保障措施，让科技成为保护隐私的盾牌，而非让科技成为泄露隐私的缺口。其次，提升数据管理人员的专业水平、风险意识，避免数据管理人员蓄意泄露、恶意售卖用户信息事件的发生。最后，通过立法保障数据安全。哪些数据能共享，哪些数据不能泄露，谁可以、谁不可以使用某些数据等，都需要从法律上给予约束，做到有法可依。

　　3.5 制度为纲：完善版权保护制度

　　数字出版物比纸质出版物更容易被盗版，应进一步完善版权保护制度体系。国家层面，要系统地对创作、出版、发行等全过程进行立法保护和制度规范;社会层面，要强化版权保护机构职能，为创作者提供快速便捷的版权登记服务;创作层面，作者、出版企业要及时做好版权登记，作品发布前要与发布平台签署版权协议。

　　4 结语

　　“十四五”期间，大数据技术将推动出版业实现快速发展。出版企业应打破传统出版思维，分析数字资源特征和国内外受众需求，提升优质内容的传播力和影响力。出版企业可以秉承导向为先、人才为本、盈利为基、保护为要、制度为纲的大数据应用策略，推出具有中国特色且适合国内外市场需求的优秀作品，在建设“文化强国”和“数字中国”的伟大进程中，不断提升我国出版业的美誉度和竞争力。

上一篇：中国城镇新增住房需求规模的测算与分析

下一篇：房地产企业税务风险管理研究

您身边的学术顾问

出版业大数据应用策略探究

多对一·精细化服务