摘 要:[目的/意义]在高维数据环境下,推荐的精准度和实时性存在相互制约的现象。如何在精准度与实时性之间取得平衡,实现对推荐质量的有效控制是值得研究的问题。[方法/过程]本文首先分析了高维数据环境的成因及其对推荐质量的影响,在此基础上构建了一种个性化推荐质量控制模型,该模型先评估推荐质量在精准度和实时性两个方面的损失,再结合应用环境,得到相应的质量控制策略。[结果/结论]实验分析的结果证明该模型可以在高维数据环境下实现对推荐质量的有效控制,让推荐系统可以更好地适应不同的应用环境。
关键词:高维数据环境;大数据;个性化推荐;推荐质量;控制;模型;应用环境
个性化推荐技术在电子商务、社交、广告和新闻领域都取得了商业上的成功,受到众多学者的关注。精准度和实时性是个性化推荐质量的两个核心指标,推荐的精准度越高、实时性越强,就表示推荐质量越好。大数据时代的来临,高维数据环境对推荐系统来说已经成为常态。在高维数据环境下,个性化推荐的精准度和实时性存在相互制约的现象,即:在追求更高精准度的同时,其推荐实时性往往会下降,反之如果想实现更高实时性则精准度也会受到影响。
因此,当应用环境变化需要调节推荐的精准度或者实时性时,就必须在它们两者之间取得一个平衡,不能为了提升一个推荐质量指标,而导致另一个推荐质量指标的大幅下降,这样系统的推荐质量是无法保证的。由此,本文提出一种面向高维数据环境的个性化推荐质量控制模型,该模型通过对比推荐质量在精准度和实时性两个方面的损失,来寻找有效的推荐质量控制策略,让推荐系统可以更好地应对不同的应用环境。本研究不仅丰富了个性化推荐的理论体系,也为实际应用提供借鉴。
1 相关研究
个性化推荐是通过一定的技术手段来挖掘数据中的用户兴趣,再根据用户兴趣挖掘的结果来筛选待推荐的项目,最后生成推荐集合推送给目标用户。目前有关个性化推荐的研究中,比较有代表性的有:
1)根据内容相似性来实现推荐。安悦等[1]提出一种基于内容的热门微话题个性化推荐算法,该算法通过对比内容的相似性为用户寻找感兴趣的微话题,实验结果表明该算法可以在一定程度上解决微博数据过载的问题,实现较好的推荐效果。王嫣然等[2]提出一种基于内容过滤的科技文献个性化推荐算法,该算法将访问时间权重和文献重要度两种概念与内容过滤相结合,实现了推荐精准度的提升。王洁等[3]先根据历史浏览记录对有相同兴趣的用户进行聚类,再通过内容相似性挖掘寻找推荐项目,实验证明该个性化推荐方法可以有效提升推荐的精准度。
2)根据社交网络中的用户关系实现推荐。陈婷等[4]提出一种融合社交信息的个性化推荐方法,该方法将用户评分相似度与社交网络中的信任关系两者相结合来寻找最近邻,结合用户自身偏好和最近邻的影响实现评分预测,实验结果证明该算法可以提升推荐的精准度。李鑫等[5]提出了一种基于兴趣圈中社会关系挖掘的个性化推荐算法,该算法将兴趣圈中的社会关系与矩阵分解模型相结合,实现矩阵分解的优化,实验证明该方法在解决推荐冷启动方面有较好的效果。Ma H等[6]将信任网络与用户评分结合,通过概率矩阵分解来优化推荐。景楠等[7]提出了一种基于用户社会关系的好友个性化推荐算法,该算法将用户在社会网络中的影响力和社会关系相结合实现推荐算法的改进。
3)利用标签信息来改进推荐效果。陈梅梅等[8]提出了基于标签簇的信任张量模型,再通过计算簇内和簇间的信任强度,实现对传统相似性计算的补充,从而改进个性化推荐的准确性。孔欣欣等[9]提出一种基于标签权重评分的个性化推荐模型,并结合该模型对多类传统推荐算法进行改进,实验证明了该模型的有效性。李瑞敏等[10]通过分析用户、标签和项目之间的关系建立图模型,在此基础上将初步推荐列表与间接关联集合进行综合,实现对推荐算法的改进。
4)融合情境的个性化推荐。刘海鸥等[11]提出了一种对多种情境进行兴趣建模的方法,该方法可以提升推荐的精准度。周明建等[12]用多維度建模法构建了知识情境模型,通过计算知识情境的相似性来寻找关联知识并实现推荐,实验表明该方法提升了个性化推荐的精准度。
5)基于协同过滤的个性化推荐。杜永萍等[13]将用户间的信任关系与评分相似性相结合来寻找最近邻,实现对传统协同过滤推荐算法的改进。董立岩等[14]提出一种基于时间衰减的协同过滤个性化推荐算法,该算法将遗忘曲线和记忆周期融入协同过滤推荐中,以兴趣衰减函数来优化评分相似性的判断,实验证明该算法可提高推荐的精准度。
郭兰杰等[15]提出一种融合社交网络的协同过滤个性化推荐算法,该算法利用社交网络中的朋友关系来进行评分矩阵的填充,可有效缓解数据稀疏性问题,实现算法的改进。郭弘毅等[16]提出一种融合社区结构和兴趣聚类的协同过滤改进算法,该算法先识别社交网络中的社区结构,再与用户兴趣聚类信息进行融合来共同优化矩阵分解模型,实验证明该算法提升了推荐的精准度。
总体来看,目前针对个性化推荐的研究中,无论是优化相似性的度量方法,还是改进最近邻的查找流程,或是优化矩阵降维的方法等等,其改进的思路都是通过对推荐算法的不同环节进行优化改进来提升推荐质量。大数据时代,推荐系统经常面对高维的数据环境,高维数据环境下推荐精准度和推荐实时性相互制约的现象,会严重影响推荐质量的稳定,让推荐系统无法适应应用环境的变化,而目前恰恰缺少对该问题解决方法的研究。由此,本文提出一种面向高维数据环境的个性化推荐质量控制模型,为解决该问题提供参考。
2 推荐系统高维数据环境的形成原因
大数据时代用户数据极大丰富,个性化推荐系统为了更好地感知用户的兴趣偏好,会通过不同渠道收集用户的各类数据,并将它们集中存储起来作为推荐算法的数据源。如果这些数据源中的数据具有很高的维度,那么推荐系统就处在高维数据环境当中。推荐系统高维数据环境的形成原因主要有以下两点:
第一,用户数和项目数的快速增长,导致推荐系统主数据源的维度大幅增加。个性化推荐系统是通过分析用户已有消费或评分记录,来判断用户的兴趣,再在用户未消费过的项目中匹配合适的推荐项目。因此,用户消费或者评分的历史记录就是推荐系统的主数据源。随着用户数和项目数的快速增长,用户历史消费记录矩阵或用户对项目的评分矩阵都会大幅扩容,形成高维数据环境。
第二,由于数据之间存在关联关系,附属数据源的维度也会快速增长。上文提到推荐系统会收集各类用户数据作为兴趣感知源。本文将历史消费信息与评分信息以外的数据统称为附属数据源。这些附属数据虽然来源很多,数据类型和数据格式也很复杂,但它们都有一个共同特点,就是可以根据用户的行为轨迹进行关联。
这样一来不同类型的用户数据不再是相互孤立的,而是通过这种关联关系紧密地联系起来。因此,当主数据源的维度增加时,附属数据也必须进行相应扩容。比如将用户背景信息、社交网络、标签等与历史购买记录或用户评分进行融合来实现推荐时,当购买记录矩阵或评分矩阵的维度增加时,与之对应的用户背景信息、社交网络信息或者标签信息的数据维度也在增长,这些附属数据维度的增长速度甚至快于主数据源本身,由此进一步促使了推荐系统高维数据环境的形成。
3 高维数据环境对个性化推荐质量的影响
精准度与实时性是个性化推荐质量的两个核心指标,以下将分别介绍高维数据环境对推荐精准度和推荐实时性的影响,最后分析了精准度与实时性在高维数据环境下相互制约的原因。
3.1 高维数据环境对推荐精准度的影响
个性化推荐是通过分析用户行为数据或用户背景数据等信息来判断用户的兴趣偏好。用户的兴趣是多方面,每个方向上都可能有潜在的兴趣点,要想感知这些兴趣,就需要有相应的用户数据。总的来说,用户兴趣感知源越多,就越能从多个侧面来推断用户的偏好。当推荐系统处于高维数据环境时,主数据源和附属数据源都涵盖了大量的有用信息,推荐系统可以利用不同的算法模型来挖掘用户的兴趣。从这个角度来说,高维数据环境对提升推荐精准度有正面的作用。
比如推荐系统可以利用用户背景数据与消费评价数据进行融合,在多个用户背景维度上对其兴趣进行细分,这样预测出的用户兴趣的精准度会大大提高,同样的结合项目本身的属性或者社交网络、信任关系等也可以提升推荐的精准度。总的来说,高维数据环境为推荐系统提供了丰富的兴趣感知源,为推荐精准度的提升奠定了数据基础。
3.2 高维数据环境对推荐实时性的影响
推荐实时性也是推荐质量的重要指标,当用户访问网站时,推荐系统必须快速地识别用户的潜在意图,并及时给予推荐,这样用户根据系统推荐进行进一步的选择。如果推荐集合的计算时间太长,无法保证推荐的实时性,用户可能跳转到另外一个页面,其兴趣可能已经发生转化,或者在新的页面下已经没有了推荐栏的设置,无法实现推荐。
这样系统的推荐质量会大大下降,用户体验也会降低。因此,保证推荐实时性对推荐系统来说非常重要。在高维数据环境下,用户兴趣感知源的增加,对推荐精准度来说是利好,但是对于推荐实时性来说,会使得兴趣挖掘的计算复杂度大幅提升,从而导致系统开销过大,直接影响推荐系统的响应。特别是将附属数据源与主数据源进行融合挖掘时,计算复杂度的数量级会大大增加。此外,当大量用户同时访问时,系统的负担会进一步加重,系统响应时间也会延长。总的来说,高维数据环境会降低推荐的实时性。
推荐阅读:大数据市场下工业工程在制造业的应用
论文指导 >
SCI期刊推荐 >
论文常见问题 >
SCI常见问题 >