【摘要】 大数据实验平台为大数据实验教学提供了有力支撑。随着移动设备的不断普及,如何在轻量级终端上支持大数据实验成为一个重要难题,而IPv6技术的应用为解决该问题提供了可能。提出了支持IPv6轻量级终端的大数据实验平台架构,支持轻量级终端对大数据平台云端集群的快速交互,实现在各类型轻量级终端设备上远程进行大数据实验的目标,从而突破大数据实验教学的时空局限性。
高建良; 高俊; 段桂华, 工业和信息化教育 发表时间:2021-10-22
【关键词】大数据平台;实验教学;IPv6技术;轻量级终端;人工智能;交叉学科
0 引言
数据科学与大数据技术人才培养需要加强大数据实验教学[1]。在大数据实验教学中,实验环境通常运行在大数据集群上以处理海量数据。搭建集群的过程主要包括Spark、HBase、Hadoop等多种自动化和开源软件的设计安装,烦琐的配置工作量大[2]。
为了解决高校的大数据实验环境基础构建烦琐困难的问题,已经出现了不少商用大数据实验平台。例如,按照数据挖掘、大数据平台与算法及行业实战数据分析3个层次来构建的大数据实验平台。一站式大数据实验平台集分布式实验集群、主流平台及教程、培训于一体,缓解了配置难的痛点。但是,目前高校大数据实验教学依然存在一些问题。一方面,高校的大数据实验教学局限于仅在高校机房中配置大数据实验平台以完成教学及学习任务,时间地点不灵活,存在时空局限性问题。另一方面,随着智能手机和平板电脑等轻量级移动设备的遍及,基于移动设备的学习资源设计已成为移动学习研究的方向之一[3-4]。若能借助移动智能设备,构建支持轻量级移动终端的大数据实验平台,便可以突破大数据实验的时空局限。因此,针对支持轻量级终端的大数据实验平台进行研究,提出支持轻量级IPv6终端的大数据实验平台的解决方案。
1 大数据实验平台的背景和构建意义
平台建设是大数据落地的关键之所在[5]。吕云翔等人探究与实现了大数据在线学习网站以提升大数据学习的效率[6]。为了促进学生的大数据实践,杨丹等人研究了“大数据技术”课程实验教学环境的构建[7],赵亮、陈志奎设计了基于 Hadoop的大数据算法库教学实验平台[8]。
大数据实验平台在线上学习和资源配置上具备极大优势。大数据实验平台不仅能减轻教师的实验授课负担,同时也能为学生的实验学习提供保障。一方面,对于刚接触大数据学习的学生来说,其在正确配置大数据实验环境并且理解配置参数上存在困难。另一方面,很多学生选择使用笔记本计算机进行实验,但笔记本计算机的性能一般不足以支撑分布式实验环境的搭建。目前学生的大数据实验多数在虚拟机上完成,但是因为内存、CPU等受限,无法给虚拟机分配足够多的资源,学生只能以单机实验为主,难以完成多机集群部署,给大数据学习带来很大的困扰。
大数据实验平台功能强大,可以满足教师实验授课与学生学习的全部需求。云端的虚拟化大数据实验平台启动快、占用资源少,可以在有限的物理资源上创建多个虚拟化的实验机环境,并可远程访问,完成包括单机与集群环境下的大数据实验。学生不需要搭建实验环境,也无须等候实验室安排,只需登录云平台即可进行实验;教师也可通过平台方便获知学生实验情况,大数据实验平台主要功能如表1所示。
但是现有的大数据实验平台在远程访问和设备支持上存在不足。一方面,目前很多高校的内部网站仅支持校内网访问,因此需要解决大数据实验平台的校外访问问题;另一方面,智能手机、计算机等移动设备的数量逐年增长,智能终端已经融入每个人的生活当中。随着智能终端的不断遍及,探讨移动环境下的课程学习模式十分必要。
2 IPv6技术支持多终端大数据实验平台
构建支持轻量级移动终端的大数据实验平台的困难在于如何建立与识别每台移动终端与实验平台之间的连接。IPv6技术是很好的解决方案, IPv6技术有以下3方面优点。
(1)拥有巨大的地址空间。IPv6能够确保每个轻量级移动终端获得其唯一的IP地址。随着移动终端数量的爆发性增长,IPv6成为解决终端设备地址问题的根本途径[9]。IPv6规定IP地址长度为 128位Bit,理论上存在2128-1个不同的IPv6地址,这使每个轻量级的移动设备都能拥有全球唯一的 IP地址成为可能。因此,借助IPv6技术,可以很好地建立与识别每台移动终端设备与大数据实验平台间的连接。
(2)具有可靠的安全性。IPv6能够保证数据传输中的数据安全可靠。IPv6网络层可以加密用户的传输数据并校验IP报文,实现对通信端的验证,极大地提高了网络的安全性。IPv6根据密码生成地址,能够较大限度确保地址不被伪造[10]。因此,IPv6的安全性可以保证数据在传输过程中不被截获和丢失,实现轻量级终端对大数据实验平台的安全访问与数据传输。
(3)具备高效的数据传输速率。IPv6能够保证数据传输速率的高效性。与需要大量冗长数据的IPv4相比,IPv6的固定报头非常短,可以有效地提高网络数据传输的效率。基于聚类原则的 IPv6地址分配方式,使用路由表中的一条记录便可表示路由器的一片子网,从而减少路由器中路由表的长度,提高路由器转发数据包的速度。因此,可以凭借IPv6高效的数据传输速率实现轻量级终端与大数据平台云端集群的快速交互。
3 支持轻量级IPv6终端的大数据实验平台
3.1 支持IPv6终端的大数据实验平台简介
为了突破大数据实验平台的时空限制以满足实时使用的问题,笔者提出构建支持轻量级 IPv6终端的大数据实验平台,如图1所示。支持轻量级IPv6终端的大数据实验平台借助IPv6安全性高、地址广泛和传输速度快的特点,利用云平台与IPv6技术的结合,将轻量级终端(便携式移动终端)纳入平台服务范围内,通过配置云平台以支持IPv4/IPv6的双栈网络传输,实现轻量级终端对大数据实验平台的远程访问,省去用户在终端上安装实验环境等烦琐操作,同时突破时空访问局限性,极大地提高大数据实验平台的使用便利性。
支持轻量级IPv6终端的大数据实验平台主要分为3个模块:轻量级终端、互联网传输层和服务器集群端。轻量级IPv6终端主要包括手机、平板计算机和笔记本计算机等移动终端,以及用来发送终端传输信息的IPv6路由器。服务器集群端包括集群搭建的Master节点、Slave节点(如支持 Spark、Hadoop、Kafka等)、分布式资源管理器及用来接收终端传输信息的IPv6路由器;在轻量级终端和服务器集群之间的传输层通过使用支持 IPv4/IPv6的双栈网络传输,实现轻量级终端和服务器集群终端之间信息的稳定传输,保证信息完整性和安全稳定性。
3.2 支持IPv6终端的大数据实验平台架构
支持轻量级IPv6终端的大数据实验平台架构如图2所示,其主要包括3个部分:App应用客户端、数据传输层和服务端。
(1)App应用客户端。客户端上的功能模块主要分为代码提交模块、数据提交模块和数据可视化模块,以分别执行代码编辑、数据导入及数据可视化等功能。用户通过支持IPv6的各类型轻量级终端(移动设备)下载大数据实验应用客户端,并在客户端上完成用户注册和用户登录,通过支持IPv6的数据传输层建立与大数据实验平台的连接,实现与大数据集群数据交互。
(2)数据传输层。数据传输层主要包括支持IPv6的路由器和网络,涉及基于IPv6的数据传输、地址转换及隧道技术,以建立服务端与客户端间数据传输的桥梁,保证服务端的大数据实验平台与轻量级移动终端间的安全高效传输。客户端通过发送访问请求和IP地址,经由支持IPv6的路由器接收解析客户端请求的数据,并发送到互联网的传输层。传输层根据访问地址IP找到服务端的大数据平台设备所在的网络接口,经由服务端的IPv6路由器接收解析该访问请求,并建立客户端与服务端间的连接。
(3)服务端。服务端主要涉及大数据实验平台的服务器集群,主要为客户端提供大数据实验的资源服务。服务端的集群设备分为主节点设备和从节点设备。大数据实验平台的服务端支持基于YARN的资源管理系统、基于Kafka的流数据处理、基于Spark的数据处理及基于SparkML的机器学习。在数据存储方面,支持轻量级IPv6终端的大数据实验平台支持HDFS文件系统、HBase、 Redis、MySQL数据库等来存储和缓存各种类型数据。同时,大数据实验平台具有基于ElasticSearch 的数据检索模式,保证大数据实验的资源配置和大数据学习内容的丰富性。
4 结语
大数据实验环境配置复杂,对计算机性能要求较高。构建支持轻量级IPv6终端的大数据实验平台不仅可以解决实验环境的设备性能制约问题,同时能够满足在各类型轻量级终端设备上进行平台访问的需求,突破大数据实验平台访问的时空限制。支持轻量级IPv6终端的大数据实验平台可为培养大数据应用型人才提供重要保障,满足师生多元化与多终端的需求。
论文指导 >
SCI期刊推荐 >
论文常见问题 >
SCI常见问题 >