基于改进SOM神经网络的异网电信用户
细分研究
刘 铭,何禹德,刘精精
(长春工业大学 基础科学学院,吉林 长春 130012)
摘要:在电信运营商对用户价值认知的基础上,对用户进行正确分类是其了解用户的重要手段。电信运营商可以将用户分为不同的类别,并以此制定差别化服务,从而进行差异化营销来提高企业效益。本文首先对异网电信用户进行了细分研究。为了提高分类的准确率,在传统自组织映射神经网络基础上,对学习速度和权重向量初始值的确定进行了改进,提出了改进的自组织映射神经网络。采用改进的自组织映射神经网络对某省电信运营商提供的用户数据进行仿真。仿真结果表明,改进的自组织映射神经网络在兼顾稳定性的同时,很好地解决了自组织过慢问题,提高了用户分类的准确率,大幅度减小误差。最后根据分类结果为电信运营商实施差异化营销提供了基本规则。 关键词:自组织映射 学习速度 异网电信用户 差异化营销 细分 中图分类号: TP399 文献标识码:A 文章编号:
Abstract: Based on the cognitive value of the users, the correct classification of the users is an important means of the telecom operators’ understanding of them. Telecom operators can divide the users into different categories, and thus develop differential service policies in order to differentiate marketing to improve business efficiency. Firstly, the different users of the telecom network are classified. In order to improve the classification accuracy, based on the traditional self-organizing map neural network, learning rate and weight vector of the initial value are improved, therefore, an improved self-organizing map neural network is proposed. Then the improved self-organizing map neural network is adopted to simulate, using user data provided by a provincial telecom operator. Simulation results show that the improved self-organizing map neural network, taking into account the stability, solves the slow self-organization problem, improves the accuracy of user-classification, and significantly reduces errors. Finally, the basic rules are provided for the telecom operators implementing differential marketing in line with classification results.
Keywords: self-organizing map, learning rate, different telecom network users, differential marketing, classification
0 引言
随着国内外电信业务的快速发展和电信市场竞争的加剧,这就迫使运营商要越发重视客户,根据客户的实际需求提供个性化的服务解决方案,客户关系的大一统必然向细分化和个性化转变。因此,客户细分是电信企业营销的关键所在。客户细分是有效贯彻客户关系管理(Customer Relationship Management CRM)理念[1,2],实现精益运营的基础。如何将客户根据其消费行为进行合理的细分,针对不同的客户提供适合其特点的个性化服务,为客户提供更多的方便,同时最大化企业利润,已成为电信运营商所关心的重要问题。
电信运营商所服务的用户分为同网用户和异网用户,同网用户是指同一运营商的在网用户,而异网用户是指非本网运营商提供服务的用户。例如,对于中国联通而言,中国移动和中国电信的用户是中国联通的异网用户。目前,大多数客户细分研究都是针对同网用户进行分析,而少有针对异网用户进行研究。但是,针对异网用户的细分研究对于电信运营商而言又十分重要,可以提高电信运营商的用户基数,异网用户作为电信运营商的有力潜在用户越来越受到运营商的关注。所以,针对电信异网用户的细分研究是一项非常必要的工作。
1
目前,国内外在客户分类的研究问题中已有多种算法被应用于其中,王晓国等[3]于2003年利用决策树算法对公司客户进行了等级划分研究、闫相斌等[4]实现了利用模拟退火算法和遗传算法根据购买行为对客户加以分类;Liou J J H等[5]利用粗糙集法;Chicco G等[6]与
[7][8]
Yun-hong G等采用K-均值算法探讨了客户分类问题;郭蕴华等提出了基于模糊聚类分析的客户分类算法, 对客户进行分类管理。K-均值算法存在对初始值敏感和易陷入局部最优的缺陷,导致电信客户分类正确率较低;粗糙集法和决策树算法中属性集中可能存在冗余, 需要在分类前排除掉, 存在的人工干预性过多,无法对此进行智能判断;人工智能算法由于其诸多优势已经越来越多的应用于商业智能行业,但模拟退火算法存在过度学习、学习速率慢以及容易陷入局部最优的问题。本文将对自组织映射(Self Organization Map,SOM)神经网络进行改进,并利用改进的SOM神经网络对异网用户数据进行仿真,从而实现电信异网用户的细分。
1 SOM算法
1.1 SOM网络的基本结构
SOM网络为无隐层网络结构,只由输入层和竞争层组成。输入层神经元数为n,竞争层是一个二维平面阵列,由m=n个神经元组成,输入层与竞争层之间实现全互连接,输入层之间互不连接,竞争层神经元相互之间可能有局部连接。 1.2 SOM网络的工作原理
SOM网络的工作原理是将任意维输入模式在竞争层映射成一维或二维离散图形,并保持其拓扑结构不变。SOM网络通过对输入模式的反复学习,功能相近的输入模式离得比较近,不同的输入模式分得比较开,以此将一些无规则的输入自动排开。在权重的调整过程中。可以使权重向量空间与输入模式的概率分布趋于一致,即权重向量空间能反映输入模式的统计特征[9]。这种自组织聚类过程是在系统自主、无导师指导下完成的。 1.3 传统SOM网络自组织学习过程
传统SOM网络的自组织学习过程可以分为两个部分: (1)、选择最佳匹配神经元。
在SOM网络自组织学习前,先对输入向量Pk(k=1,2,L,q)和权重向量
2
Pk(k=1,2,L,q)进行归一化处理,评价函数采用输入向量Pk和权重向量Wj之间的欧式距
离。比较所有的j对应的各个欧氏距离,选择欧氏距离最小者所对应的神经元为获胜神经元c。当训练好网络后,有相近的输入模式出现时,某个神经元就会“兴奋”起来,表示该神经元已经接受了这个模式。
(2)、权重向量的自适应更新过程。
当输入向量Pk被输入到SOM网络后,获胜神经元c的权重Wc和其邻域内的神经元将Pk
移动。在输入向量被多次提交给SOM网络后,邻域Nc(t)内的神经元将通过学习而拥有彼此相似的学习向量。
1.4、改进SOM神经网络算法
在传统SOM网络自组织的过程中,合理选择学习速度成为难题。如果学习速度a(t)一直接近于1,则权重向量会来回振荡更新,造成学习稳定性较差;反之,如果学习速度a(t)趋
2
向于0,虽然使得学习稳定性得以增强,但是会使收敛时间过长。 本文采用式(1)来动态设置学习速度a(t);
t
a(t)=a0(1−) (1)
T
这种方法兼顾了快速学习和稳定性,在训练开始时,选择学习速度a(t)接近1,能够使神经元很快地学习输入向量,随着训练的进行,逐步减小学习速度,在学习后期,a(t)趋于0,从而保证学习过程收敛,这种方法可以取得较好的学习稳定性。
在传统SOM网络中,邻域Nc(t)选择不当可能导致收敛速度变慢甚至不收敛,因此需要对邻域Nc(t)改进。在开始时,选择范围宽一些,约为1/2的输出平面,随着时间的推移,
Nc(t)向以c为中心的小范围逐步收缩,Nc(t)收缩到最后可以只包含竞争获胜的神经元c,Nc(t)=1,这样既加速了自组织过程,又保证了学习过程的必然收敛,并且大大降低了造成
网络扭曲的可能性。
从神经生物学观点看,侧反馈的强度与神经元和中心神经元c的欧氏距dc有关。所以邻域Nc(t)关于dc的高斯函数,则
dc2
Nc(t)=exp(−2) (2)
2σ其中σ是邻域Nc(t)的“有效宽度”;此时权重更新公式为:
Wj(t+1)=Wj(t)+σ(t)Nc(t)[pk(t)−Wj(t)] (3)
其中σ和a(t)可根据下列经验公式选择:
σ(t+1)=σ0⎢
⎡σt⎤
⎥ (4) σ⎣0⎦
1
t
1t
⎡a⎤
a(t+1)=a0⎢t⎥ (5)
⎣a0⎦
,σi=0.5;02、实例仿真本文所用的样本数据来自国内某电信运营商的某省公司,数据为当地2000户固话1月内
的通话记录,其中包含本网和异网与固话的详细通话记录,字段有通话开始时间、呼叫类型、
3
计费方手机号(加密)、归属地代码、通话时长、结束时间及其他加密信息,共计177856条记录。其中客户号码及客户信息均已加密。 2.1 模型输入因子的确定
RFM模型是企业客户分类的主要方法之一,它使用的三个指标是近度R(Recency)、频度F(Frequency)、值度M(Monetary)[10]。通常不能直接将RFM模型运用于电信行业的客户细分,而是从客户消费角度来建立电信业客户细分的RFM模型。而在本文异网用户细分研究中,由于非本网的计费方式未知,所以不能计算出异网用户的通信费用,因此需对值度M进行全新解释。本文提出了改进的电信业RFM模型,其中R为客户最近消费时段,F为客户一定时期内消费次数,M指客户一定时期内消费时长。 2.2 数据预处理
(1) 数据清洗
在利用数据进行客户细分之前,需要先对进行数据清洗,去掉与细分前提不一致的数据项。本文所收集的数据项中,空值很少,因此对于空缺值数据的处理方式为忽略行。同时对于孤立点数据的处理中,本文删除了通话频次和时长为零的数据项。
经过数据清洗后剩余177771条有效记录,再按照客户要求,筛选掉固话号码后,最终数据集包含129150条记录。
(2) 时段划分
按照人们通话的大致规律,本文将通话时段细分为三个时段,分别用标签1,2,3表示。
表1 时段标签划分表
时段标签
1 2 3
时段
22:00—6:00
9:00-11:30&13:30-17:00
17:00-22:00&6:00-9:00&11:30-13:30
(3) 数据规约
为了消除数值型属性因大小不一而造成分类结果的偏差、确保学习结果的正确性、提高学习速度,需要对数据进行数据规约处理。本文采用了归一化方法对数据集进行了数据规约。
U=
X−Xmin
(6)
Xmax−Xmin
2.3 SOM神经网络的学习、训练及优化
(1)、以电信客户的R、F、M作为划分客户类别的指标,3个属性的最大类别为8类。为了包含所有可能的类别模式且避免过分的细分,因此,设定神经网络节点个数为9个,表示最多可分为9类。
(2)、为得到较好的聚类结果,采用如下图所示的六角形结构的SOM神经网络拓扑结构,将所有初始权值Wji赋予随机的较小的相同初值。按照式(2)设置初始领域Nc(t)。设置网络学习次数T=500。
4
图1 SOM网络拓扑结构
图2 SOM算法训练流程图
5
(3) 给出一个学习样本Pk≈(p1,p2,L,pn)(n表示输入数据的维,k=1,2,…,n)输入网络,让网络学习样本。
(4) 计算输入的样本和所有的神经元的欧式距离dj,并选取和Pk距离最小的神经元c为获胜神经元。
(5) 改正神经元c及其邻域节点的连接权值用式(3)计算。
(6) 继续输入新的样本,返回到(4),直到全部样本输入到网络。邻域函数采用式(2)表示。 (7) 等到网络训练步数达到最大训练步数,向训练好的网络输入一组测试数据集
kkk
Pc=(pc1,pc2,L,pcn),看看聚类的效果,以此来确定网络是否过度的适应了训练数据集。如
果发现网络的聚类效果很差,则返回(2),重新设定训练的参数。否则网络已经完成训练。
3 仿真结果与分析
图3 临近神经元之间的距离情况
图4 每个神经元的分类情况
图3中蓝色代表神经元,红色线代表神经元直接连接,每个菱形中的颜色表示神经元之间距离的远近,从黄色到黑色,颜色越深说明神经元之间的距离越远。
图4中蓝色神经元表示竞争胜利的神经元,其中分类结果如下:
表2.各分类数目表
分类标签 1 2 3 4 5 6 7 8 9
分类数目 15356 3950 2517 1339 1398 806 590 309 1070
平均频率
1 3 14 2 6 34 2 4 10
平均时长
82 101 858 109 537 2972 3 392 1177
按照图3及表2所示,对各分类标签代表的类别进行分类,将电信客户分为4类,其中相对于固话而言第四类为常联系人、重要联系人,第三类为较重要联系人,第二类属于一般联系人,第一类为陌生联系人。
表3.分类标签对应类属和通话行为表
类属 第一类 第二类
分类标签 1,2,4 5,7,8
通话行为
平均频率小于等于3,平均时长小于100秒 平均频率大于3小于10,平均时长大于390秒
6
第三类 第四类
3,9 6
平均频率大于10,平均时长大于800秒 平均频率大于30,平均时长大于2000秒。
对于电信运营商而言,第四类及第三类可供运营商重点关注,作为重点潜在营销对象。此类用户与本网用户有很强的联系,表现在于通话频率高和通话时间长,运营商可以向本网用户制定推广合适的异网通话套餐,也可发展异网潜在用户、推广本网的优势及互免套餐等营销活动,进而还可针对细分结果制定客户VIP服务。
4 结论
本文在传统SOM神经网络基础上提出了改进算法,并重新定义了电信客户细分的RFM模型,使用改进的SOM神经网络算法对某省电信异网用户数据进行了仿真。仿真结果表明,改进的SOM神经网络在兼顾稳定性的同时很好地解决自组织过慢问题,提高了客户分类正确率,大幅度减小了误差。
本文利用实际电信异网通话数据进行仿真的结果显示,第三类和第四类用户可以作为运营商的优势潜在用户,从而为电信运营商实施差异化营销提供了基本规则。 参考文献
[1] Batt R. Explaining wage inequality in telecommunications services: Customer segmentation, human resource practices, and union decline[J]. Industrial and Labor Relations Review, 2001: 425-449.
[2] Chen Y, Zhang G, Hu D, et al. Customer segmentation based on survival character[J]. Journal of intelligent manufacturing, 2007, 18(4): 513-517.
[3]王晓国, 黄韶坤, 朱炜, 等. 应用 C4.5 算法构造客户分类决策树的方法 [J]. 计算机工程, 2003, 29(14): -91. [4] 闫相斌, 李一军, 叶强. 基于购买行为的客户分类方法研究[J]. 计算机集成制造系统, 2005, 11(12): 1769-1774. [5] Liou J J H, Tzeng G H. A dominance-based rough set approach to customer behavior in the airline market[J]. Information Sciences, 2010, 180(11): 2230-2238.
[6] Chicco G, Napoli R, Piglione F. Comparisons among clustering techniques for electricity customer classification[J]. Power Systems, IEEE Transactions on, 2006, 21(2): 933-940.
[7] Yun-hong G. Application of Improved K-means Algorithm in Telecom Customer Segmentation[J]. Computer Simulation, 2011, 8: 034.
[8] 郭蕴华, 陈定方. 基于模糊聚类分析的客户分类算法研究[J]. 计算机应用研究, 2005, 22(4): 52-53.
[9] Boone D S, Roehm M. Retail segmentation using artificial neural networks[J]. International journal of research in marketing, 2002, 19(3): 287-301.
[10] Bob S. Successful direct marketing methods[M]. NTC Business Books, 19.
7