2021-4-9 | 移动通信论文
作者:艾达 罗爱平 单位:西安邮电学院通信与信息工程学院 中国联通上海分公司
重入网用户的识别原理是对比新增用户特征和离网用户在系统中记录的特征,如果特征符合判断条件,则认为该用户是重入网用户,如果没有符合特征的记录,则认为该用户为新增用户[6]。用户特征包括:用户资料,如姓名,身份证号;用户设备,如用户使用的手机的国际移动设备标识号码(InternationalMobileEquipmentIdentity,IMEI);用户呼叫指纹,如用户交往圈,频繁发生呼叫的地理位置等。较为简单的重入网用户识别方法是通过对比用户资料或设备特征实现的。用户资料,例如身份证信息,只能用于识别资料完整的用户,对资料缺失、伪造以及大多数无需登记资料即可入网的预付费用户无效。每部手机都有唯一的IMEI号,当用户拨打电话时,手机的IMEI会自动记录在用户的通话话单中,因此可以利用用户手机判别是否重入网。采用对比IMEI号码识别重入网用户,具有方法简单,速度快的优点。但通过调查发现,重入网用户手机更换率达32%以上[7],IMEI识别方法准确率较低,约为42%[8]。
用户的呼叫特征具有相对稳定性和个体差异性两个特性,可用于识别重入网用户。相对稳定性是指用户通话习惯,通话群体等因素在一段时期内相对稳定,发生改变的概率较小。个体差异性是指每个移动用户都有自己独特的通话习惯和联系群体,不同用户存在一定的差别。这种呼叫特征的相对稳定性和个体差异性就像指纹一样可以用于个体的识别。用户在使用移动产品及服务时,产生的各种行为和属性的综合表征称为呼叫指纹。呼叫指纹可分为用户交往圈、位置特征、消费特征、终端特征等多个维度。用户交往圈是与用户有通话行为的所有号码的集合。位置特征是用户在工作时间和休息时间活动较为频繁的小区标识等信息。消费特征是指用户的消费行为、消费水平等信息。终端特征是指用户使用过的手机终端信息。通过对用户原始话单的数据采集和加工,生成不同维度的呼叫指纹[5]。采用呼叫指纹识别技术,通过一系列的比较运算就可找到重入网用户,其重入网技术框图如图1所示。
基于呼叫指纹的识别算法
目前广泛采用的有效交往圈算法[2],综合运用了用户消费层次、交往圈、频繁活动小区、用户手机终端等4个维度的呼叫指纹,其识别步骤如下。
步骤1首先判断离网用户和新入网用户消费层次是否一致,将不一致的用户排除。
步骤2消费层次一致的用户判断交往圈匹配程度是否达到一定条件,满足条件则认为是重入网用户,不满足条件则认为不是重入网用户。
步骤3无法用交往圈匹配方法判断的用户,再对比其手机终端是否一致,如果一致则认为是重入网用户。
步骤4如果手机终端不一致,则判断频繁活动的小区匹配程度,如果位置信息匹配程度达到一定条件,则认为是重入网用户。
步骤5如果位置信息不匹配,则变更用户消费层次,重新执行步骤1。其中步骤1根据目标用户的消费层次大小,分别确定每个目标用户的有效交往圈成员数N,即那些与所述用户联系比较频繁且能保持长期交往的重要交往对象个数。步骤2使用用户的通话频率Freq,通话次数Num,通话时长Dura等参数,计算出用户交往指数Exp=f(Freq,Num,Dura)。
用交往指数排名前N个的号码作为用户的有效交往圈。计算离网用户与新入网用户有效交往圈交集的成员个数,并计算符合率,即交集成员个数占离网用户有效交往圈成员数的比例。如果符合率大于门限值,则认为是重入网用户;如果符合率小于门限值,但大于0,则属于不确定情况。此时,需要步骤3做进一步判断。交往圈余弦相似度算法在有效交往圈算法基础上[2-3],将当月离网用户和新增用户(分本网和竞争对手)分别作为待匹配集和目标匹配集,并按照位置信息和交往圈进行k-means聚类,形成待匹配识别的基础表。然后按照待识别号码的类别信息计算位置信息的重合度,找出目标集合中与待匹配号码相近的号码群,再通过计算待识别号码交往圈的重合度对号码群进行筛选,最后通过呼叫指纹找出匹配的号码,并用对比IMEI方式确认。与文[2]计算有效交往圈符合率的判别方法不同,交往圈余弦相似度算法分别加权计算共有交往圈号码的语音呼叫次数,语音呼叫时长,短信次数的余弦相似度最大值αj=βj=(t1,t2,…,tm)T(j=1,2,…,n),而n表示交往圈号码的总个数。另外,当k=1时,ti(i=1,2,…,m)为特定时间段内与某一号码通话(或短信)的次数;当k=2时,ti(i=1,2,…,m)为特定时间段内与某一号码的通话时长。当i=1时,m=7,表示通话行为的周特征;当i=2时,m=24表示通话行为的日特征(工作日和休息日)。当l=1时,交往圈取通话信息;当l=2时,交往圈取短信信息(此时k为特定时间内与某一号码的短信通话次数)。其中ωl为权值,根据用户的通话行为和短信行为动态选取,通常根据交往圈内的通话次数和短信次数的比例确定。根据式(1)分别计算待检测号码与目标号码集中每个号码的θ,如果最大的θ≥0.85时,即认为待识别号码与所对应的目标号码完全匹配,否则认为待检测号码离网或转网。
改进Hausdorff距离算法[4],用修改后的Hausdorff距离取代余弦相似度作为判别依据,进一步提高呼叫指纹比对的准确性。在改进的Haus-dorff距离中,认为两个集合匹配程度和他们的共有元素个数相关,并且不使用单个dH(A,B)衡量集合之间的距离,而取其中所有的dH和作为统一的判别。首先定义任意两个号码的相似度,其中Ω是所有可以连接元素a和b链的集合,kl为当前链的节点个数,M为给定的常数,tl为链l中所有节点元素通话时间的总和。改进后的Hausdorff距离定义为在计算复杂度方面,尽管该算法较以往的算法更复杂,但由于对待匹配样本集和目标样本集进行了聚类细分,且采用并行运算,因此整体的计算量略大于以往算法,在识别精度上有进一步提高。TF-IDF加权余弦相似度算法[5]与上述三种算法所采用的识别方法不同,采用结合TF-IDF加权与Cosine相似算法相结合的呼叫指纹识别方法。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。用于识别呼叫指纹时的实现步骤如下。步骤1使用TF-IDF算法获取某一个用户的话单中呼叫号码的TF-IDF值其中ni是号码i在用户D话单中出现的次数,分母是该用户话单中所有号码数之和,|D|是用户总数,|{d:ti∈d}|是出现有号码i话单的用户总数。步骤2将该用户话单用矩阵的形式表示,计算得到TF-IDF=TF•IDF。步骤3使用Cosine相似算法计算两个用户之间的相似度。通过对多个相似用户常拨打的(10~30个)号码的权重和相似度进行分析,从而达到判断是否为重入网用户。