摘要:笔者以计算机信息安全为研究对象,分析大数据技术在信息安全系统中的具体应用,并尝试将系统优化,结合Apriori算法的应用理念,通过算法的应用流程展现大数据技术在计算机中的具体应用,分析大数据技术维护信息安全的能力,实现网络安全的目标。
关键词:Apriori算法;遗传算法;信息安全
推荐:《计算机安全》(月刊)创刊于2001年,由信息产业部基础产品发展研究中心主办。本刊是面向国内外公开发行的全面介绍网络与计算机信息系统安全的科技月刊,一直以来,我们积极为各行各业服务,与社会各界建立密切的联系。目前已成为行业媒体中内容丰富、普及实用的技术刊物。
引言
在大数据时代,网络信息安全问题来自多重因素,具体包括网络环境的开放性、人为操作的失误问题、黑客入侵、垃圾信息干扰等。为保障网络信息安全,可以采取的防护措施包括:增强计算机应用人员的安全防护意识、搭建防火墙、提升黑客的防护能力等。在防护措施中,以大数据技术为主导,具有良好的应用效果。
1计算机安全审核系统搭建
安全审核系统中包括多个模块,如图1所示,笔者分别从主机网络、集中式与分布式、智能代理3个方面建设安全审核系统。由图1可知,主机网络安全审核包括基于主机的安全审核和基于网络的安全审核。集中式安全审核系统和分布式审核系统,包括集中式安全审核和分布式安全审核。基于智能代理技术的分布式安全审核系统包括AAFID系统结构和AAFID的过滤器。主机视角开展的信息安全审核:依据系统日志识别入侵信息,针对入侵类型开展系统修复。网络安全审核:分析网络传输数据信息,保障数据安全。集中式与分布式开展的安全审核:将多个系统中的数据,实行数据采集与整合方式,加以数据分析,此方式极易引起网络传输容量不足、计算能力不佳等问题;在分布式信息审核系统中,借助网络检测器,融合于系统环节中,实现了采集数据完整传输至主机的技术目标,良好解决了集中计算产生的并发性能不足、传输效率不佳等问题,提升了安全审核的效率。分布式信息审核运行劣势为:引起中心系统单点失效问题、系统扩展能力不佳。由此发现,安全审核功能,在一定程度上保障了数据信息的完整性与安全性,能够为系统运行提供数据保障。
2大数据技术的应用
2.1系统优化
大数据应用系统的模块包括数据收集(采集)、数据保存(存储)、数据分析(挖掘)和数据应用(展示)。安全审核系统如图2所示。由图2可知,大数据计算支持的安全审核系统中,数据收集模块由日志、用户行为等8个部分组成,以此保障数据收集来源,有效获取多种结构的数据,包括结构化、半结构、非结构3种,并且从系统各模块中获取相关数据,包括流量类、行为类、检测类数据信息。当数据收集完成时,应将数据完整保存在分布式层级中。存储数据选择的技术有多种,具体包括MySQL、HDFS等,此类数据库能够有效保存数据。在数据分析模块中,采用的大数据技术为Mahout、遗传算法等计算方式,针对数据异常事件加以分析。
2.2Apriori算法
2.2.1算法理念Apriori算法属于应用较为广泛的数据分析计算方式,此算法理念为:假定数据库中含有n项数据,并用数据集符号S加以表示,即S={S1,S2,...,Sn}。与其相关联的数据T,作为数据库事务中的数据集合。为此,数据库中任意事务F,均作为数据集S的分项子集,存在T∈S的关系式。其中X、Y存在关联关系,并且满足X被包含于I、Y,包含于Y、X与Y的交集结果为空集[1]。在总事务占比中,以D作为符号,X与Y之间的关联支持度数值为P(X合并Y),在X占比置信度的计算中,X与Y关联关系的置信度数值为P(X|Y)。集合处理期间,针对数据集的多重性,有效集成数据,使之形成项集。如果数据集基数为m个,即称为m项集。如果数据集中存在支持度较高的一项,并且其设定的支持度最小阈值以min为表示方式,将此数据集作为频率较高的项集,即将序列全部的高频项集有序整合,形成新的项集,并以Lm为表示方式。Apriori算法开展的数据分析流程为:①以迭代方式,查询数据库中现存的高频数据集,此程序中计算数值的支持度>设定阈值;②依据用户日志中提取的置信度的最小值分析数据价值。
2.2.2算法流程由数据分析可知:在Apriori算法的运行理念中,将每层搜索的数据,配合迭代的计算方式,有效获取了高频数据集,以数据分析技术为基础,获取高频数据集,以此确定数据集之间存在的关联关系。如图3所示,为Apriori算法的信息核算流程。Apriori算法的图解流程:①初始化操作,在数据库中搜索全部数据,并确定高频项集合S1;②将Sn-2(其中n不小于2)以自连接方式获取n阶数据,设定候选项目集合为Cn;③在备选高频项目中,将任意子集作为剔除对象,如果n阶备选项目中存在关系式为Cn-1∈Cn,并且Cn-1∉Sn-1,此种关系说明备选数据中不包含项频数,可将其剔除;④在②、③中执行流程,对于尚未发现高阶层次的项目数据,获取数据分析序列。Apriori算法的应用实例如下,获取了6组数据。序列1的数据集为:1、2、3、4、5、6、7。序列2的数据集为:2、5、6、9。序列3的数据集为:2、4、5。序列4的数据集为:1、3、7。序列5的数据集为:1、2、6。序列6的数据集为:2、3、6、7。结合实例的Apriori算法流程:遍历数据集,获取1阶项目数据集,即S1={1=3,2=5,……,9=1},S2={12,13,14,15,……,46,47,49},令S2自主连接,获取C3项目数据集[2]。
2.2.3遗传算法遗传算法的组成元素包括基因、染色体、适应度等,此类元素通过交叉与变异,逐渐形成算法元素。(1)基因。在遗传学论述中,基因指DNA片段,基因含有基数较大的遗传信息,基因作为遗传算法中的基础性计算单位。在遗传算法中开展基因计算流程,可选择二进制与整数的计算方式。(2)染色体。染色体包含多组基因,作为信息承载的介质。染色体编码形式包括浮点数与二进制两种方式。浮点数编码形式指:假设种群基数为m,符号表示为xii,表示数据更迭期间,i个数据个体,基因长度设为n,则个体表示为xii属于Rn,以xii作为n维行向量的表示方式,即可表示为xii={xii1,xii2,...,xii3}。在更迭期间,数据种群xii表示方式矩阵为主,即n×m。在种群中的矩阵以X0为表示方式,则有X0={x01,x02,...,x0n},在矩阵中尚未发现两行相同的数据,表示种群存在互异性。在二进制程序中,如若种群基数为m,表示方式为xii,代表数据更迭期间存在第i个数据个体,并且每个数据个体位数表示方式为1。其中,基因基数的计算可表示为L=ml。数据个体xii以ml作为表示方式,获取其行向量数值,即xii={xii1,xii2,...,xii3},最终以二进制编码为计算方式,将编程转化为实际,应采取的计算流程为:11/212)tjljfxiikmkmkvkx−=(,)=+(−)(−)(∑×(1)(3)种群。进化论中的种群概念指多组物种通过排列方式形成的群体结构。此概念融合于遗传算法流程中,以此可知,遗传算法种群表示的是某代染色体数量总和。在计算过程中,设定种群初始数值不小于100[3]。
2.2.4算法改良在进行全局数据搜索时,遗传算法性能良好,得到广泛应用。Apriori算法的应用优势在于计算流程实现过程较为简单,不足在于数据量基数较大时,数据处理能力不佳。为改善Apriori算法的应用性能,采取以遗传算法与Apriori算法相结合的方式。数据中的有限数据集以D为表示方式,即D={d1,d2,...,dn},此类数据集在系统中获取了良好运行,依据Apriori算法的运行理念,开展强项集合的计算分析。在强项结合求解期间,借助遗传算法理念,解决算法读取数据问题,有效增强了算法性能。算法设计应遵循改良思想开展,采取二进制编码思想,将安全关联的相关信息,以二进制行为表示,并关联信息连接。同时,依据计算机安全审核所具有的关联能力,定义染色体的排列状态,采取二进制编码形式测定网络的数据流量。在完成编码的基础上,开展适应度关系式设定。在遗传算法中,针对Apriori算法对数据库读取过程存在效率不足、运行缓慢等问题,应在算法改良期间,予以解决。为此,在适应度关系式中,应包括两个变量,即支持度、置信度。关系式为:f(x)=aS(x)+bB(x)。其中,ab表示常用数值,S(x)代表支持度数值,B(x)指置信度数值。
2.2.5性能分析在试验过程中,运行系统为Windows7,内存为16GB,仿真系统为Python3.7。在试运行期间,数据来源为近阶段安全审核系统中现存的数据。安全审核系统所具有的数据保存容量为500MB。其中,种群基数设定为150,变异率设定为0.13,交叉率设定为0.9。性能分析方式如下。第一,划分次数对分析数据效率产生的影响。经试运行发现,改进算法与经典算法对比时,在划分次数累加时,改进算法所用的运算时间较短,划分次数对数据分析结果产生的影响较小。第二,数据分析基数对分析数据效率产生的影响。经试运行发现,在数据分析时间增加时,数据分析基数提升,改进算法数据分析所需的时间相对较少,由此说明,在调整数据分析基数中,其运算效率不变,尚未对其产生不良影响。
3结语
在物联网背景下,安全技术逐渐成为信息领域的关键性技术。本文以安全审核技术为基础,搭建具有信息安全防护与审核能力的应用型平台,以此完善大数据技术的审核系统,分别从数据收集、数据有效保存、数据信息分析、数据应用4个角度开展审核系统设计,并且借助Apriori算法提升系统安全审核能力,保障信息安全。
参考文献
[1]赵培琨.大数据时代计算机网络信息安全及防护策略[J].计算机产品与流通,2020(5):36,52.
[2]董伟.大数据技术在计算机安全审核中应用研究[J].现代计算机,2020(10):23-29.
[3]侯毅.大数据环境下计算机信息安全技术探讨[J].中国新通信,2020,22(6):135.
论文指导 >
SCI期刊推荐 >
论文常见问题 >
SCI常见问题 >