背景介绍:
我们国家主要的移动通讯运营商有三个,它们分别是:移动,电信,联通。在过去的十年里,这三家公司都得到了极其快速的增长。这种增长主要来源于移动通讯设备的普及,来源于发卡量的增长。
但是,在过去的几年里,故事有所变化。一个很大的变化是,发卡量似乎不再增长了,因为手机已经完全普及了。在这种情况下,如何实现业务增长,成了三大运营商头痛的问题。一个方案是精耕细作,极大化现有客户的价值。一个方案就是挖墙脚,争取把竞争对手的客户吸引过来。
因此就出现了,联通挖电信,电信抢移动,移动偷联通的激烈竞争局面。一个直接后果就是客户流失率的居高不下,尤其是高价值客户。因此,客户流失成了运营商大会小会都要谈的重要问题。为此,通过数据分析,理解客户的流失规律意义重大。
该数据包含4975条有效观测。每条观测来自于一个手机号码的某个年度。
------------------------
数据说明
因变量
流失用户:在25个月的观测期内,用户是否已经流失。1=是,0=否
自变量
套餐金额:用户购买的月套餐的金额,1为96元以下,2为96到225元,3为225元以上
额外通话时长:用户的实际通话时长减去套餐内包含的通话时长得出用户在使用期间的每月额外通话时长,这部分需要用户额外交费。数值是每月的额外通话时长的平均值,单位:分钟
额外流量:用户的使用的实际流量减去套餐内包含的流量得出用户在使用期间的每月额外流量,这部分需要用户额外交费。数值是每月的额外流量的平均值,单位:兆
改变行为:是否曾经改变过套餐金额,1=是,0=否
服务合约:用户是否与联通签订过服务合约,1=是,0=否
关联购买:用户在使用联通移动服务过程中是否还同时办理其他业务(主要是固定电话和宽带业务),1=同时办理一项其他业务,2=同时办理两项其他业务,0=没有办理其他业务
集团用户:用户办理的是否是集团业务,相比个人业务,集体办理的号码在集团内拨打有一定优惠。1=是,0=否
使用月数:截止到观测期结束(2012.1-2014.1),用户使用联通服务的时间长短,单位:月
我们采取二分类逻辑回归来进行建模,模型结果如下图:
模型正确百分比98.3%,不错
从显著性来看,只有 额外通话时长.集团用户.使用月数 这些变量<0.05,说明只有它们具有统计意义,最能影响预测结果.
(ps:但也不是绝对,可能样本量太少或自变量数量太多导致有影响的指标变得没影响)
对于显著性>0.05的自变量,我们要一个一个删掉后优化模型得到下图:
从模型的结果可以看到,在控制其他变量不变的情况下,得出结论如下:
额外通话时长对流失概率影响不大;
集团用户用户办理了集团业务,流失概率变大。
使用月数越长,流失概率越低;
额外通话时长每增加1分钟,流失概率就下降 0.1% ( EXP:0.999-1 分钟=-0.001)
本分析报告的作用:
当我们收集到用户各种行为数据后,就能进行流失概率预测.
以此精确地挖掘出那些存在流失倾向的用户.
并对那些高流失概率的用户进行挽留