树人论文网一个专业的学术咨询网站!!!
树人论文网

IP骨干网流量的自动化预测

来源: 树人论文网发表时间:2021-08-09
简要:摘要:高效可靠的网络流量预测是网络规划和容量扩展的基础。当前互联网流量预测缺少完善的知识模板,本文介绍了一种基于工程实践特征并相对简单、可运行的预测模板来满足 IP

  摘要:高效可靠的网络流量预测是网络规划和容量扩展的基础。当前互联网流量预测缺少完善的知识模板,本文介绍了一种基于工程实践特征并相对简单、可运行的预测模板来满足 IP 网络规划的需要。首先根据 IP 骨干网流量的特点,通过对多因子回归以及函数自适应模板对流量进行研究和预测。其次以现网实际参数的仿真计算为基础,比较了两种模板的特点、优缺点,说明预测模板选择和数据改善的原理和办法。最后,在此基础上提供了能够符合很多个时间序列需要的自动化流量预估体系,在一定程度上优化的同时提高了流量预测效率。最后,期待了以后该预测工作的发展方向和重点。

IP骨干网流量的自动化预测

  冯臻, 网络安全技术与应用 发表时间:2021-08-05

  关键词:时间序列;流量预测;预测模型

  近几年,随着互联网应用和服务的爆发式发展,作为关键承载网的 IP 骨干网流量始终保持持续增长的趋势。数据表明,近两年运营商 IP 骨干网流量增长率在 25%-30%之间,为了满足顶级服务和应用的流量承载需求,运营商需实时监控网络流量状态和链路利用率情况,在网络规划中评估网络负载现状和预测规划期内流量的增长趋势和幅度,依据预测结果提出合理的网络结构优化和能力扩容建议。所以,对流量预测的精准性在网络计划工作里起着极其关键的作用。

  与传统电话网络不同,IP 骨干网流量具备突发、自相似、长相关、周期性和混沌的特征,这些特性造成了泊松的传统流量模板不再适用 IP 网络。所以,近些年行业内提出了一些例如神经网络的理论模板、模糊的理论模板等基于智能算法的 IP 网络流量预测理论模板,然而在其实际应用中来看它们仍无法满足要求。所以,在欠缺理想的理论模板的条件下,需要从现网数据的研究中,归纳总结合理的预测参数及模型,以补偿理论模板中的不足。

  1 IP 骨干网流量特点分析

  首先 IP 骨干网有着极高的流量聚合特点,以某个城市或省为对象来说,它的颗粒度高达数百 Gbit / s 甚至数 Tbit / s,在实际项目中,重点关心的是链路中总流量的总变化范围。其次,它的规划周期普遍以年为单位,例如,对 1 年和 3 年内规划期内预测总流量。相较于以日为颗粒度进行观察的流量,它的长时间增加波动比短期的突发幅度要大得多,长时间的变化过程能够更好地体现出流量的变化走势。下图显示了短时间流量(每日流量)和长时间流量(每月流量)随时间的变化趋势,可以看出,短时间流量随时间变化具有很大的波动,而长时间流量则显示出恒定的增长走势。

  在 IP 骨干网的流量预测中,虽然缺少理想的理论模板,但还是有很多的项目实践经验可以用来借鉴、归纳、总结,从而形成预测模型。

  2 IP 骨干网流量预测方法

  2.1 多因子回归模型

  多因子回归模型是一种把时间序列趋势外推和流量变化比率分析相结合的预测方法,就是对时间序列的长期走势采用趋势外推方法进行曲线拟合,同时研究分析和检查对流量特点有重大影响的宏观或微观原因,来修正和改善通过趋势外推法获得的预测结果。

  使用多因子回归模板来预测流量。首先,使用通信网络中惯用的曲线方程式(包括线性方程式、指数方程式、幂函数方程式、二次曲线方程式、多项式方程式等)来确定网络流量的长期走势进行曲线拟合。多项式方程通常可以写成: ( ) .... 2 3 y t = a + bt + ct + dt + ,其中,a 是截距,b 是 t 的第一项的系数,c 是 t 的二次项的系数,d 是 t 的三次项的系数;其中幂函数方程和二次曲线方程都能够当作是多项式方程的一种特殊形式。实际上,依据网络流量的实际现状,其经常使用多项式方程式来拟合流量的长时间走势。目前,可以同时考虑流量增加的线性和非线性特点,以保证能够符合多种场景的预测要求。

  因为趋势外推曲线拟合不能体现流量变化的内在原因,所以有必要引入一些与流量变化紧密相关的影响因素,并将其作为曲线变化的约束条件来修改流量的长时间趋势。这些影响因素有宽带用户数量、平均流量速度、平均访问带宽和使用类型、用户行为、内容分布、资源策略和区域经济状况等。因为涵盖许多因素,并且每个因素之间的关系都很复杂,所以模板的重点就是对这些影响因子的选择。

  2.2 函数自适应模型

  函数自适应模板不是一般的时间序列模板,而是将时间序列预估问题转换为实时和自适应曲线练习的过程。在本文的任务中,流量是因变量,对曲线拟合而言,它是趋势项和季节性项的总和。该模板具有更多可调整的参数和更大的灵活性,但它往往会发生多度拟合的问题,在实践中,必须采取相关办法来最大限度地防止这类问题的出现。

  2.2.1 趋势项 g(t)的预测

  历史流量趋势项的研究和解决实际上可以归类于选择变化点并确定流量的增长率问题,就是解决特定变化点上时间序列的增长率。

  2.2.2 季节项 g(t)的预测

  当前时间序列普遍伴随周期变化而出现季节性变化,例如天、周、月和年,这也称为周期性变化,这时候就需要用一个周期性函数来表述时间序列的周期性变化。

  3 海量流量预测对象的自动化预测

  大规模的流量预测要求包括对出站流量、IDC 流量、城域网流量、国际流量、以及互联互通流量等进行研究预测。以出站流量来举例,除了香港澳门和台湾外,我国还有 31 个省,同时流量分为流入和流出两个方向;以城域网举例,我国约有 300 个城域网,也分为流入和流出两个方向。这些预估对象结合起来可以达到几百甚至上千个,然而要对这些流量的时间序列逐个进行研究预估,假如全部依赖手工来选择模板和相应的数据、调整数据,繁重的工作量会使流量的预估成为不可能完成的工作。所以,对于上面的两种预测模板,本文将提供一种具有针对性的自动化预测体系,如图 2 所示。

  自动化预测体系的预测过程如下:分别使用两个预测模板对流量进行预测,并在相同机密间隔的条件下,选择残差平方和的最小或平均绝对百分比误差最小的模板用作当前流量时间序列的最终预测模板;在多因子回归模型里,就要经过多因子相对关键性研究、数据来源可靠性等整体条件选择最关键的影响因子;自适应模板中,关键是在置信区间一致的条件下选择 SSE 或 MAPE 最好的预测模板及数据组合;最后使用交叉验证方法来对预测的结果进行评估,此时把该预测结果上报到流量起点,同时对后期的流量收集进行参数对比研究,通过把目标区域网络扩大和实际经营情况相结合来研究预测流量与实际流量的不同,以此来用作流量预测后评估进一步改善模板和数据,最终形成闭环的流量预测评估调整体制。当前该系统主要使用在运营商的大型 IP 网络里的省际流量、城域网流量、IDC 流量的长时间预测里,在一定程度上很大的提升了该网络计划建设的质量和效率。

  3.1 多因子回归模型影响因子的选择

  与该流量紧密相关的影响原因有宽带用户数量、流量速度、访问带宽和资源方法及经济进步等,若是需要更加准确的研究,还要把所包含的用户行为分析、使用类型分析以及内容分布等进行研究。但是,对于大颗粒度以及非实时流量(例如来自骨干网的出站流量)来说,在工程实践里,只需关注用户数量、平均流量速度、平均访问带宽和区域经济进步对流量的影响即可满足要求。

  3.2 函数自适应模型参数的确定

  当利用自适应模板来对 IP 骨干网进行拟合和预估时,首先就要明确趋势项和季节项的数据,即容量参数 cap(仅对 Logistics 趋势增长)、变化点数、变化点权值参数 cps 和季节性权重参数 sps。变点的数量和变点权值数据体现了曲线拟合的速度和灵活性,变点的数量越多,变点的权重越大,那么曲线变化速度越快、走势越灵活,然而拟合太多,风险也就越大,预估范围的不确定就越大;季节权重数据 ps 体现了季节成分的灵活性,值越大,那么它的变化就越快也会愈发明显。

  伴随各类新应用和业务的持续出现,IP 骨干网的成长和范围依然有着不确定性,这将给流量预测以及网络设计优化带来更大的困难和挑战,尤其是网络流量的趋势研究以及预测需求将变得更加紧迫。怎样把它与现有的预测模板中的长处进行结合,同时开发新的预测办法来对它的走向和出现的问题进行解决,这会是以后流量预测工作的关键。