5G时代下基于大数据AI的全周期反通信信息诈骗方案研究
林宇俊,许鑫伶,何洋,鲁银冰
(中移(杭州)信息技术有限公司,杭州 310000)
摘 要 近年来,电信诈骗呈现持续高发态势,引起社会各界高度关注。随着5G技术的发展,连接设备和传感器数量的激增,导致数据源更丰富,产生的数据量呈指数上升,同时也显著提高了识别和防止诈骗数据处理的复杂程度。对于运营商而言,传统防欺诈技术将不再适用,必须能够在短时间内处理海量数据,以防止欺诈。为了解决上述问题并更好的保护深度受害用户,本文提出一种治理通信信息诈骗的方法,可实现5G时代下从信令中提取疑似码号的通信特征,利用机器学习方法快速研判和处置。经本地验证,该方法的准确性可达85%。关键词 5G;电信诈骗;机器学习中图分类号 TN918 文献标识码 A 文章编号 1008-5599(2019)11-0047-08近年来,通信信息诈骗造成的损失逐年递增,且诈骗形式层出不穷。通信信息诈骗已形成了一条非常完整的犯罪产业链。根据有关机构测算,通信信息诈骗从业者达上百万人,年产业规模已经高达千亿元。目前通信信息诈骗案例集中呈现出了一些新的特征。一是诈骗模式事件链化、精准化。犯罪分子往往利用社会工程学设置诈骗场景脚本,利用不断升级的诈骗手法、运营商的业务规则和流程漏洞,通过诈骗事件链设置将受害人一步步引入圈套,让人防不胜防。二是诈骗渠道和手段多样化、专业化,随着科技手段的进步,作案手段已从最原始的发短信、打电话等发展到扫描恶意二维码植入木马病毒、钓鱼诈骗等恶意网站等多种渠道联合作案的新型犯罪手段。收稿日期:2019-09-16随着5G技术的发展,通信将变得更加便捷,数据源变得更多样化,数据量也会呈现激增的趋势。采用传统的社会治理手段和识别规则难以适应,相关部门和企业防范打击经验不足,防不胜防。1 研究目的
随着互联网和5G的发展,运营商采集的数据源更丰富,产生的数据量呈指数上升。电信诈骗作案方式也层出不穷,从冒充亲友类的“猜猜我是谁”的常见诈骗方式,到结合了匿名网站、钓鱼网站和垃圾邮件等多种黑产手段的新型诈骗方式。通信信息诈骗案件更难检测和预防,也对通信信息诈骗治理工作提出了更高要求,47
2019年11月 第 11 期(第32卷 总第267期)月刊
电信工程技术与标准化 2019年中国移动科协“5G+”专题需能够利用大数据技术,在短时间内处理海量通信数据,并能利用机器学习方法建模,及时对诈骗案件进行研判和处置。目前业界主要的骚扰诈骗电话识别方案有以下几种。(1)语音分析:分析陌生电话语音内容,使用自然语言处理提取行为特征,但造成侵犯用户通话隐私和影响用户感知等不良影响。(2)阈值匹配:从主叫号码字段匹配其呼叫频率阈值,再用投诉样本数据对其验证。由于投诉样本数量少,只有少量诈骗电话被记录,易造成具有字段特征的普通用户号码被误判,且难以识别出不具有号码字段特征的诈骗电话。(3)聚类计算:计算诈骗电话簇和主叫号码簇相似度,并与已确认的诈骗电话特征指标值进行匹配,但易造成广告营销等电话与诈骗电话较为相似,从而误判的情况。且通信信息诈骗形式多变,活跃期短,因而无法得到有效管控。在5G背景下,由于数据流的数量和速度呈指数上升,识别和防止诈骗的数据处理的复杂程度也随之增大。在数据源方面,由于5G将大规模地提供物联网等微服务,因而数据库引擎必须能够从多个通道中提取信令数据,且支持多种数据格式。在时效性方面,为了更及时有效地识别诈骗行为,需要在秒级别内自动应用数千个内置机器学习规则。在准确性方面,为了阻止欺诈性交易和用户,底层数据库需要实时分析数千个属性,以做到实时智能的复杂事件处理,例如用户行为、地理位置、设备信息和交易类型等。使用内置机器学习算法,将这些属性与正确的行为进行比较,并在事件中识别和阻断、提醒。基于上述问题,本文提出了一种治理通信信息诈骗的方法,可利用大数据中的Hadoop组件,实现5G时代下从信令中提取疑似码号的通信特征,而后利用XGBoost算法,通过对海量黑白样本的学习,建立一套诈骗案件识别模型,能够对通信信息诈骗进行快速研判和处置。3.1 诈骗电话识别模块2019年 第11期2 系统技术架构
整体系统技术架构如图1所示。系统主要包含诈骗电话识别、受害程度判定规则及易感人群识别等三大模块。利用信令数据中异常主叫行为及事件链来识别诈骗号码,利用通话相似行为来识别通信信息诈骗受害人,并结合业务运营支撑系统(BOSS)数据中用户历史通话数据、身份数据和消费数据来对易感程度进行分级。在诈骗电话识别算法中主要涉及到信令数据中的若干字段,提取用户的通话异常行为,并筛选该通话异常行为前后的通话行为,对与该用户有过通话的主叫号码和被叫号码进行标记,作为疑似诈骗电话集合。从信令数据、BOSS数据中提取疑似诈骗电话的全部通话特征,依据CART决策树和异常点检测识别规则对是否为诈骗电话进行判别。若判别为诈骗电话,则筛选出与诈骗电话有过通话行为的所有号码,根据通话行为特征判别上述用户受害程度。最后根据深度受害人用户通话和消费行为,对易感人群进行画像,从而实现对其他用户的易感程度分级。3 设计实现
该模块用于精准识别诈骗电话。对于被网络爬虫标记且具有异常通信特征的用户,采用CART决策树模型进行识别。而对于活跃期短或新出现的诈骗电话,利用用户异常主叫及其前后通话行为事件链模型进行识别。3.1.1 标签样本爬取及样本标记由于大量已标记的诈骗/骚扰电话样本获取困难。因此可采用网络爬虫的方式,将所有样本号码提交到360、百度等网站,利用这些网站自有的黑名单库对样本号码进行检测,爬取被各种手机助手标记的疑似诈骗/骚扰号码信息,将这些可疑号码信息导入数据库用于模型训练。由于用户在各种手机助手标记手机号码时的不确定性,可采用以下方法来提升标记结果的准确性。48
2019年11月 第 11 期(第32卷 总第267期)月刊2019年 第11期2019年中国移动科协“5G+”专题 电信工程技术与标准化图1 整体系统技术架构
(1)当360和百度对同一号码标记,得到的结果相同时,采用该标记结果。(2)当360和百度对同一号码标记,得到的结果不相同时,对该号码在行为特征上进行分析,选择行为特征逻辑上与标记结果比较符合的作为最终标记结果。如号码1822553****,在百度上标记为骚扰电话,在360上标记为正常号码,从数据库中分析此号码通信行为特征可知,该号码在一天内主叫通话次数14次、主叫率100%、主叫联系人个数14、主叫外地联系地个数14、被叫通话次数0、回拨率0、联系人/通话次数比例1等,不太符合正常手机用户的通信行为,因此将该号码标记为骚扰电话。在通信行为上与正常电话之间必然存在某些区别,而且这些电话多为主叫,因此选取以下通信行为特征(包括主叫通话次数、主叫外地通话次数、主叫率、主叫联系人个数、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、被叫通话次数、回拨率、活动基站数、联系人/通话次数比例等)进行统计分析。对某一天某个省的信令数据进行统计分析,以下通过表格的方式对4种号码类型的各项通信特征的统计值进行具体展现,如表1所示。选择统计分析较显著的特征(主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例),将两两特征进一步关联分析。从特征统计分析表和两两特征关联分析图可知,正3.1.2 特征选择及特征统计分析考虑到诈骗/骚扰电话、响一声电话、呼死你电话49
2019年11月 第 11 期(第32卷 总第267期)月刊
电信工程技术与标准化 2019年中国移动科协“5G+”专题通话时长上有显著区别。响一声130.00130.00100%9.33 9.331.6765
呼死你126.6751.4099%1.420.660.5832.00
2019年 第11期表1 4类号码通信特征统计值
指标名称
主叫通话次数(次)主叫外地通话次数(次)主叫率
主叫联系人个数(个)主叫外地联系人个数(个)主叫外地联系地个数(个)主叫通话每小时频率(次)主叫通话时长(ms)被叫通话次数(次)回拨率
活动基站数(个)联系人/通话次数比例
正常号码6.122.0260%4.21 1.401.002.5151 281.184.0329%7.40.71
诈骗/骚扰电话
53.7930.8398%51.3328.878.8210.5025 201.700.760.4%4.50.96
为进一步区分这4类号码,引入决策树做具体分析。3.1.3 基于CART决策树的诈骗电话识别模型将主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例共8个特征作为CART决策树的输入变量,决策树深度为5,样本量为100万。目标类型中0代表正常号码、1代表诈骗/骚扰电话、2代表响一声、3代表呼死你。3 110.6719 307.55
00%1.90.07
0.413.4%2.20.02
常号码、诈骗电话、响一声、呼死你在某些特征上具有显著区别。具体如表2所示。从表2可得以下结论。(1)诈骗/骚扰电话、响一声、呼死你在主叫通话次数、主叫率、主叫通话频率都大大高于正常号码,而在回拨率上大大低于正常号码。(2)响一声、呼死你相对于诈骗/骚扰电话主叫通话次数更多,主叫外地联系人个数较少,通话频率更高,联系人/通话次数比例极少。(3)响一声相对于呼死你、诈骗/骚扰电话在主叫通过决策树得到的决策规则后,对预测数据采用该规则进行预测,得出疑似诈骗/骚扰电话结果集1。3.1.4 基于XGBoost三分类模型由于诈骗号码和广告号码没有明确的界限,需对于CART决策树结果中诈骗、广告、普通用户(类型1和类型2的号码)进行进一步识别,即三分类模型。其中诈骗即网络标记为诈骗、骚扰或被用户举报的,广告即网络标记为中介或广告推销等。三分类标签化处理情况如下:设label0-1代表互联网标签无标记的号码,label1-1代表互联网标签标记表2 4类号码主要特征
号码
类型
主叫通话次数
主叫率
主叫外地联系人个数
主叫外地联系地个数
主叫通话频率极低
主叫通话时长正常,通话时长在50 s左右
回拨率
联系人/通话次数
比例正常
少,平均每正常
天主叫通话适中号码
6次诈骗/多,平均每极高,主骚扰天主叫通话叫比例接电话54次近100%极多,平均极高,主响一声每天通话叫比例接
130次近100%极多,平均极高,主
呼死你每天通话叫比例接
127次近100%
适中,平均
每天与4人极少联系
极多,平均较高,每天约每天与51人与9个不同的联系城市联系适中,平均
每天与9人极少联系
极少,平均
每天与1人极少联系
正常
高,约未受骗用户识别诈骗几乎为0,说明几乎为1,说明该1 h通话需要一定时间,通话该类号码基本不类号码对多个号码11次时长在25 s左右会被回拨进行单次拨号极高,约1 h通话基本在3 s以下65次
几乎为0,说明
该类号码基本不较低会被回拨
较高,约比较正常,被呼叫用几乎为0,说明几乎为,0,说明该1h通话户在接通后一段时间该类号码基本不类号码对极少用户32次后才会挂机会被回拨进行连续拨号
50
2019年11月 第 11 期(第32卷 总第267期)月刊2019年 第11期2019年中国移动科协“5G+”专题 电信工程技术与标准化表3 三分类参数设置
参数
learning_ratecolsample_bytreemax_depthsubsampleobjectiven_estimatorseval_metric
early_stopping_rounds
0.10.460.6
‘multi:softprob’800
[‘auc’,’mlogloss’]50
取值
含义
学习率,控制每次迭代更新权重时的步长,值越小,训练越慢训练每棵树时,使用的特征占全部特征的比例。调小该值可避免过拟合树的深度。值越大,越容易过拟合;值越小,越容易欠拟合随机采样训练样本 训练实例的子采样比
指定学习任务和相应的学习目标,当前指定为多分类问题树的个数
分类任务的评价指标,设置“auc”和多分类负对数似然函数“mlogloss”在验证集上,当连续n次迭代,分数没有提高后,提前终止训练
为“骚扰”或“诈骗”的号码,label2-1代表互联网标签标记为“外卖”或“中介”或“广告”或“购物”的号码,label1-2代表第三方数据标记为关停或加黑的号码。黑白名单划分逻辑如下:白名单(0)代表label0-1号码+联系人数小于20的非label1号码,黑名单(1)代表label1-1号码+label1-2号码,灰名单(2)代表label2-1号码。本次XGBoost调整的参数如表3所示,其它参数采用模型默认取值,不做调整。获取结果集中的类型3和类型4,与三分类模型输出结果合并为结果集2。(3)多个用户在接到某陌生电话后,短期内发生主叫行为,且主叫对象为同一陌生电话。其中公共电话指110、114和95550等客服电话。陌生号码指30天内未曾与该用户有过通话行为的号码,且排除上述公共电话。当发生上述异常行为时,记录下陌生电话,并标记为疑似诈骗电话。通过查询疑似诈骗电话的信令和BOSS数据,匹配该疑似诈骗电话的通话行为和消费行为等,如表4所示。表4 事件链模型输入特征
类别
数据源
特征分类【通话行为】
联系人情况
信令
特征
【通话行为】主被叫情况
特征名称联系地个数外地联系人个数主叫次数
低于10 s的主叫次数平均通话时长呼叫回拨率在网时长
BOSS
【消费行为】
行为信息
下行流量
最近3天ARPU值
目标类型
诈骗电话判定规则
诈骗电话疑似诈骗电话
3.1.5 基于事件链的诈骗电话识别模型对于活跃期短或新出现的诈骗电话难以识别。根据图2所示通信信息诈骗场景图,一般单独一次通话无法完成整个诈骗流程,而多是由诈骗团伙成员各有分工,通过多次通话获得受害人信任,从而完成诈骗。从用户角度而言,大部分用户接到诈骗电话后可短时间内识别,不会有后续通话行为。而无法短时间内识别诈骗电话的用户,则会与诈骗号码及其它号码有交互行为,且通话时间较长。因此可从用户异常主叫行为角度入手,通话挖掘用户异常通话行为,定位疑似诈骗电话,再通过诈骗电话识别规则,对诈骗电话进行精准识别。用户异常行为主要有以下几种。(1)多个用户短时间内接到了一组陌生电话。(2)用户在接到某陌生电话后,短期内发生主叫行为,且对象为公共电话。诈骗电话和广告推销等非诈骗电话,均具有主叫高频、外地联系人占比高和通话时长长尾型分布等特点。为进一步精确判定诈骗电话,引入离群点检测方法进行精准识别。由于对于疑似诈骗电话样本,难以获得其是否为真正诈骗的标签,因此采用无监督学习方法中的离群点检51
2019年11月 第 11 期(第32卷 总第267期)月刊
电信工程技术与标准化 2019年中国移动科协“5G+”专题2019年 第11期图2 通信信息诈骗场景
测技术,找到疑似诈骗电话中的异常点,作为诈骗电话。将疑似诈骗电话样本集视为X,通过引入基于相对密度概念技术,将离群的得分较高前N个号码视为诈骗电话,诈骗电话识别规则的具体算法步骤如下。步骤1:设置最近邻个数k。步骤2:确定k个最近邻集合,即对疑似诈骗电话样本集进行分割。,确步骤3:使用x的最近邻(即N(x,k)中的对象)定x的密度density(x,k),计算方法为density(x,k)= , 其中|N(x,k)|为该最近邻集合outline_score(x,k)= 。步骤5:将X中所有点按离群点得分进行升序排列,并取前top-N个点作为异常点。通过事件链模型得出疑似诈骗/骚扰电话结果集3,与疑似诈骗/骚扰电话结果集2进行合并去重得到最后的结果集4。3.2 受害程度判定规则模块利用用户与诈骗电话通话情况,对受害程度进行分级。对于上述已被识别规则判定为诈骗电话的号码,对y为其中一个最近邻, D(x,y)为基于Mahalanobis大小,距离的邻近性度量,有D(x,y)=(x-y)S-1(x-y)T,S-1为数据协方差的逆矩阵。步骤4:计算离群点得分outline_score(x,k),其计算方法为被诈骗电话呼叫过的用户进行细分。由于用户对诈骗电话的识别能力具有差异性,部分用户在可以立即判断并挂掉,此类情况受骗可能性较小。而部分用户会在接到诈骗电话后,呼叫亲友、114等号码进行确认,也存在部分用户一天内被多次骚扰的情况,因此需要对多种受害人后52
2019年11月 第 11 期(第32卷 总第267期)月刊2019年 第11期2019年中国移动科协“5G+”专题 电信工程技术与标准化续行为场景进行分级,如受害程度判定规则模块所示。受害人发起主叫的对象分为亲密人、诈骗电话、公共电话和陌生号码4类。(1)亲密人指在若干天通话记录中,符合亲密人判定规则的联系人。其中亲密人判定规则是指同一归属地,且30天内与受害人通话不少于5次的号码。受害人接到诈骗电话后,若拨给自己的亲密人,则认为其在一定程度上相信了诈骗电话,需再次向亲友核实,故将其放入2级深度受害人数据库。(2)诈骗电话指已被识别规则判别为诈骗电话的号码。受害人接到诈骗电话后,犯罪分子往往会要求受害人拨给一个新号码,该号码多为诈骗同伙,则认为受害人在已完全相信了诈骗电话,故将其放入3级深度受害人数据库。(3)公共电话指110、114和95550等客服电话。受害人接到诈骗电话后,若及时识别并向110、95550等官方电话进行核实或求助,则认为其收到诈骗可能性较小,故将其放入1级深度受害人数据库。(4)陌生号码指除了亲密人、诈骗电话和公共电话之外的号码,可能是联系不频繁的亲密人或未标记的诈骗电话,存在一定被骗可能,故将其放入2级深度受害人数据库。若受害人在接到骚扰电话后未发起主叫,则考察该受害人是否被频繁骚扰,若在此记录前已被多次骚扰,则将其放入2级深度受害人数据库。若为初次骚扰,则将其放入1级深度受害人数据库。在符合深度受害人定义前提下,再对受害人进行细分,并给出1/2/3级深度受害人的定义。1级深度受害人:与诈骗骚扰电话通话时长较短,且受害人未发起主叫也未被多次骚扰。或受害人发起主叫,主叫对象为110、95550等公共电话,能够及时中止诈骗。2级深度受害人:与诈骗骚扰电话通话时长较短,且受害人主叫对象为亲密联系人或陌生电话,存在被骗可能。或受害人在短期内遭到了陌生电话的多次骚扰。3级深度受害人:与诈骗骚扰电话通话时长较长,超过10 min。或受害人在接到诈骗电话后,主动拨给了另一个诈骗电话,被骗可能性很大。从运营商角度,模拟受害人的受骗心理,从而能够从源头上对电信诈骗受害人进行锁定和监控,为了对用户进行有针对性的电信诈骗防护,引入如下易感人群画像和分类模块。3.3 易感人群识别模块该模型根据用户通话和消费行为,对易感人群进行画像和分类。将诈骗电话识别模块已有的诈骗号码数据,和该类诈骗号码联系过的用户进行聚合,得出所有被叫用户的通话类型,将受害人识别模块和受害程度判定模块获得的1/2/3级受害人,分别标记为1/2/3级易感人群,而没有遭受任何诈骗电话侵害的用户标记为潜在易感人群。具体输入变量和输出目标类型如表5所示。表5 易感人群识别模块输入变量和输出目标类型类别
数据源
特征分类【通话行为】
社交信息
信令
输入变量
【消费行为】行为信息【消费行为】用户信息
特征名称联系人数外地联系人个数 被叫次数
【通话行为】
行为信息
主叫次数最大被叫频率呼叫回拨率在网时长用户星级
最近3个月ARPU值用户年龄用户归属地1级易感人群
目标类型
易感程度分级规则
2级易感人群3级易感人群潜在易感人群
BOSS
基于上述1/2/3类深度受害人和潜在受害人的社交信息、行为信息特征数据,及4类易感人群类别,作为样本数据集合,利用机器学习中的kNN算法,获得易感程度分级规则。当输入没有标签的新用户数据后,将新数据的每个特征值与样本集中数据对应的特征值进行比较,然后算法提取样本集中特征最相似的数据分类标签,具体实现步骤如下。步骤1:把两组已知的打好标签的用户数据放到53
2019年11月 第 11 期(第32卷 总第267期)月刊
电信工程技术与标准化 2019年中国移动科协“5G+”专题Hadoop的HDFS上,分别作为训练数据和测试数据。数据的表示形式为:A用户可以表示成(xA0, xA1, …,xA10),B用户可以表示成(xB0, xB1,…,xB10),其中xA0表示用户A联系人数,xA1表示外地联系人个数,以此类推。步骤2:通过Map函数计算测试数据的节点到训练样本节点之间的距离,其中距离计算方法采用上述Mahalanobis距离公式。按照距离递增次序排序,排序的结果作为Map的输出结果,作为Reduce函数的输入量。步骤3:在Reduce函数中,选取与当前节点距离最小的k个点 ,并确定前k个点所在类别的出现频率,最终返回前k个点出现频率最高的类别作为当前点的预测分类。 步骤4:计算测试数据中kNN算法的错误率,通过调节k的大小来对分类器进行调优。步骤5:对于新的用户数据,首先计算其特征值,然后按照步骤2和3,返回易感人群分级类别。参考文献2019年 第11期深度受害人进行防控双重防护的方法。该方法结合可获知的可疑样本采用机器学习算法来识别诈骗电话,同时能够根据用户与陌生电话的通话行为,匹配异常通话行为模式,并根据疑似诈骗号码匹配出更多潜在受害人,及时介入并对用户进行提示告警。最后从用户角度,对通信信息诈骗易感程度进行分级。为了能够更有效地使用论文中的方法来防止5G电话诈骗,下一步需要不断提升本方法识别精度和识别的覆盖能力,以及应对5G电话诈骗新衍生场景的能力。4 结束语
本文设计了一种对通信信息诈骗行为进行识别和对[1] 蒲黎明. 电信诈骗语义分类系统的设计与实现[D]. 北京:北
京邮电大学,2019.
[2] 李易. 反电信网络诈骗全民指南[M]. 上海:上海社会科学院
出版社,2016.
[3] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.[4] 桂海源. 信令系统[M]. 北京:北京邮电大学出版社,2008.[5] 张青. 聚类算法在自动识别假冒领导诈骗电话的应用[J]. 移
动通信, 2019(06).
[6] 张淑平, 郭亦农. 大数据与电信网络诈骗之跨境治理[J]. 净
月学刊, 2018(03).
[7] 吉涵之, 马宇宸, 李爽, 等. 基于SVM的电信诈骗行为特征识
别方法[J]. 软件, 2017(12).
Research on system of full-cycle anti communication fraud
based on big data and AI technology in 5G era
LIN Yu-jun, XU Xin-ling, HE Yang, LU Yin-bing
(China Mobile (Hangzhou) Information Technology Co., Ltd., Hangzhou 310000, China)Abstract In recent years, communication fraud has sustained serious, causing great concern from all walks of life. On the other side, with the development of 5G technology, the proliferation of connected devices and sensors has led to an exponential increase in the number and speed of data streams, which also signifi cantly increases the complexity of data processing for identifying and preventing fraud. Therefore, for telecom operators, traditional anti-fraud technology will no longer apply, and need to process massive amounts of data in a short period of time to prevent fraud. In order to solve the above problems, this paper proposes a method for managing communication information fraud. It can realize the extraction of the suspect number’s communication characteristics from the signaling, and quickly judge and dispose of it with machine learning method under 5G. The accuracy of this method is up to 85% by local verifi cation.Keywords 5G; telecommunications fraud; machine learning54
2019年11月 第 11 期(第32卷 总第267期)月刊
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务