您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页运用聚类技术分析客户信息的方法与实证研究_王萍

运用聚类技术分析客户信息的方法与实证研究_王萍

来源:尚车旅游网
第24卷第5期2006年5月

情 报 科 学

Vol.24,No.5May,2006

运用聚类技术分析客户信息的方法与实证研究

王 萍

(吉林大学管理学院,吉林长春130025)

摘 要:企业细分市场的目的,是为了找到适合自己进入的目标市场,并根据目标市场的需求特点,制定有针对性的营销方案,使目标市场的客户某些独特的需要得到更充分的满足;通过使用数据挖掘技术,可以根据所拥有的数据特征发现不同的客户群,从而使企业能够依据不同的消费群体制定相应的营销策略。本文提出了运用聚类技术分析客户特征信息的方法,并用真实数据做了实证分析。

关键词:数据挖掘;聚类;客户信息

中图分类号:TP311 文献标识码:A 文章编号:1007-7634(2006)05-0722-05

CustomersInformationAnalysisBasedonClustering

)))MethodandCaseStudy

WANG Ping

(ManagementCollegeofJilinUniversity,Changchun130025,China)

Abstract:Enterprisehopetofinditstargetmarketandpreparethemarketingprogramobjectivelysoasto

meetallrequirementsofcustomers.Inthisstudy,theauthorinitiatestheresearchmethodoncustomerbehav-iorinformationbasedondateminingtechnology.Theauthorvalidatesthecustomerbehavioranalysismethodbasedonclusteringbyempiricalworkwithapartofrealdata.Keywords:datamining;clustering;customerinformation

需求或行为特点,不同子市场的客户在需求和行为

1 引 言

在新经济环境下,一个企业无论规模多大、实力多强、产品种类多丰富,都不可能满足市场上所有客户的需要。因为市场上的客户人数众多,分布广泛。不同的客户所处的地域、文化习俗不同,他们的年龄、性别、受教育程度、职业、收入等不同,因此他们的需求偏好、消费心理、购买行为具有极大的差异,这样就构成了若干具有不同需求特点的子市场。从企业营销的角度,将客户按照某种特征区分不同的群体,即为市场细分。市场细分是制定营销策略的基础,其实质是将整个市场分为若干子市场,每一个子市场的客户具有相同或类似的

收稿日期:2006-02-20

上存在较大的差异。企业细分市场的目的,是为了找到适合自己进入的目标市场,并根据目标市场的需求特点,制定有针对性的营销方案,使目标市场的客户某些独特的需要得到更充分的满足。客户细分的方法很多。有依据人口统计指标的细分、客户心理细分、生活方式细分、购买动机细分等等。从理想化的角度来看,人们希望对每个客户进行分析,但是,在现实中对单个客户个体的研究是不可能的。通过使用数据挖掘,可以根据所拥有的数据特征发现不同的客户群,/分群0意味着把有相似特征的客户归为同一组,同时使不同组中的客户之间差异最大化。这样,人们可以针对相同群体的客户进行进一步的分析。

作者简介:王 萍(1965-),女,长春人,吉林大学管理学院教授,博士生导师,从事信息资源管理与开发利用研究.

5期 运用聚类技术分析客户信息的方法与实证研究723

是:它不是基于各种各样的距离的,而是基于密度

2 聚类方法概述

211 聚类的基本原理

聚类是将一批数据依据它们的相似特征归类,使人们能够对数据进行概括性的理解。聚类一般原则是:¹类内的数据之间距离(新数据与初始点数据的平方根)要在一个设定的范围内;º类间的中心点之间距离要尽可能远。

聚类是要将相近、相似的对象聚成一类,为此需要确切地描述和度量有关属性,并从中比较对象间的相似程度,把最接近的对象归并成为同一类。从模式识别或空间角度来看,对象是数据点。从统计学的角度来看,在聚类分析中常把对象称为样品或个体,把它们的属性称为定量或指标。变量的描述可以是定性的,也可以是定量的。若用连续的数值度量,称为间隔尺度;若用有序等级表示,称为有序尺度;也可以使用类似名字,而无等级和数量关系的类别来描述,称为名义尺度

=2>

=1>

的,这样就能克服基于距离的算法只能发现/类圆形0的聚类缺点。这个方法的指导思想是,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

(4)基于网格的方法(Grid-basedmethods)。这种方法首先将数据空间划分成为有限个单元(cell)的网络结构,所有的处理都是以单个单元为对象的。这样处理的一个突出的优点就是处理速度很快,通常与目标数据库中的记录的个数无关,而只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

(5)基于模型的方法(Model-basedmethods)。基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数。它的一个潜在的假定是:目标函数集是由一系列的概率分布所决定的。

212 聚类技术在挖掘客户购买信息中的应用

客户数据一般可以从销售数据库中获取。可以由零售单位根据日常工作中在销售点收集的数据抽取,包括收集到的有关客户其他类型数据。

许多商家或企业已经拥有了有关客户的多种数据。其中包括从销售点收集的事务数据以及存储在数据仓库中,有关客户的所有数据。为了针对客户特征而执行数据挖掘,在开发客户细分模型时,基本可使用以下三种类型的数据:

(1)产品数据。产品数据是数据挖掘的基本要求。该数据通常采用支持通用产品代码的格式,通常在销售点扫描和记录。

(2)事务数据。大多数零售单位都有可能收集或以电子形式存储从销售点获得的信息。事务数据包括事务记录或销售票据,通常包括:购买的日期和时间;产品名称;购买产品的数量;支付的价格;付款方式(例如现金、支票、信用卡、借记卡)。

(3)人口统计数据。人口统计数据是与客户相关的描述性数据。这些数据包括:年龄、性别、教育类别、家庭住址、婚姻状况等。

聚类数据挖掘能够根据已测度的变量将相似客户归到一起,同时使不同类型的客户群组之间的差=8>

=7>

=6>

=5>

聚类分析法可以分为以下几大类。

(1)分裂法(PartitioningMethods)。给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K=3>

K-MEDOIDS算法、CLARANS算法。

(2)层次法(HierarchicalMethods)。这种方法对给定的数据集进行层次分解,直到某种条件满足为止。具体又可分为/自底向上0和/自顶向下0两种方案。例如,在/自底向上0方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成为一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHA-MELEON算法等。

(3)基于密度的方法(Density-basedmeth-ods)。基于密度的方法与其他方法的一个根本区别=4>

724

=9>

情 报 科 学 24卷

数据项可分为三类:

(1)人口统计变量)))描述个人或家庭特性。本例数据样本中的人口统计变量有:NTITLE、AGE、SEX、MARITAL、INCOME、APRTMNT、MOBILE、STATE-COD、HEAT、EDLEVEL、JOB、TRAVTIME、NUMCARS、NUMKIDS、RACE、ACCTNUM。

(2)购买行为变量)))购买产品类型、付款方式、购买数量等。本例数据样本中的客户购买行为变量有:DOMESTIC、APPAREL、APPAREL、KITCH-EN、LUXURY、DINING、JEWELRY、HHAPPAR、WAP-PAR、WCOAT、COATS、OUTDOOR、TOWELS、BLAN-KETS、LINENS、LAMPS、HOMEACC、DISHES、FLAT-WARE、MENSWARE、AMOUNT。

(3)促销活动变量)))促销方式、媒体、及其他信息。本例数据样本中的促销活动变量有:TMKTORD、RETURN、PROMO13、PROMO7、PUR-CHASE、VALRATIO。

按数据的取值可将数据分为数值型数据和类别型数据,表1、2是样本数据中变量取值的统计。

表1 聚类前数值变量统计表

数据名AMOUNTINCOMEFREQUETRECENCYAGEDOMESTCAPPARELLEISUREKITCHENPROMO7PROMO13COUNTYRETURNMENSWAEFLATWAEDISHESHOMEACCLAMPSLINENSBLANKESTOWELSOUTDOORCOATSWCOATWAPPARHHAPPARJEWELRYNUMCARSNUMKIDSTRAVTIEVALRATODINING最小值010001000109010015100010001000100010001000100-999100-9991000100010001000100010001000100010001000100010001000100010001000100010001000100最大值13285100108900100341191393100641002410025100341009100103100741008101001011002310016100111004610016100221001210073100291004010018100119100181002710031001010090100102910028100均值47414730886163107190103311051166110401870145351982214465102-543148014901580131118301461122014621271127014601391196014911111160018619153151761133标准差7491441166715219720713271132185211611731100221121818012914750015111411108018031771113211711134112215311571108513011392133015311487172501622115偏度5126401852217021172701928312134109661401315940153101569-2129011876142141409417874162251264312804125051963416091013151431814685139541720-017321323117021017841131峰度571103105811191313793100013164251748615218138-0133-016433115-11966613438129381053210843164161202511064124321932182951166135114010735124-016661614101961521931134异最大化。本质相同的群组具有特定的客户行为描述,所有聚类技术只要正确使用,都能产生恰当的分组。

由数据挖掘实现客户细分是依据数据特征而发现的,不是依赖人们的主观判断

=10>

。根据数据库

中存储的客户历史购买数据,通过比较每个客户的属性变量,计算各变量的相似程度,把相似特征的

=11>

客户归为一组,不同组之间的差异达到最大化。这种以数据驱动的客户细分与传统的统计细分是有区别的,很容易产生意想不到的结果。

3 实证研究

311 对某超市销售数据的聚类

本文选取了国外某零售超市的销售数据库部分数据做为样本数据集,来验证用聚类技术获取客户细分的方法。所使用的样本数据共1966条记录,48个属性。

5期 运用聚类技术分析客户信息的方法与实证研究

表2 聚类前类别变量统计表

变量名PURCHASEMARITALTELINDAPRTMNTMOBILELUXURYTMKTORDRACEHEATEDLEVELJOBSEXNTITLEACCTNUMSTATECOD

取值10(4916%)0(3216%)0(314%)0(9318%)0(7915%)0(8313%)0(9317%)1(8313%)1(2719%)1(1411%)1(2017%)Female(7915%)

取值21(5014%)1(6714)1(9716%)1(612%)1(2015%)1(1617%)1(511%)2(1213%)2(5712%)2(3718%)11(39%)Male(2015%)

2(112%)4(414%)3(1511%)3(4811%)16(2213%)取值3

725

312 聚类结果

图2及表3表示了利用EnterpriseMiner软件中

的K-MEANS算法对样本数据的聚类结果。

本例使用的挖掘软件是著名SAS公司的Enter-priseMiner。聚类步骤如图1。

图2 聚类结果

313 结果分析

本例聚类的结果是将数据库中客户细分为8个群组。表4对8个群组的客户群体特征信息进行简

要总结。

在本例研究中,第7组非常特别,仅有1人,这个聚类结果达到了理想的一对一营销理念。根据聚类结果,还可以将本例中的客户分为:高消费群

图1 聚类流程图

体(第1、4组)、中等消费群体(第2、3、6、8组)

表3 聚类结果汇总

绝对误差均值25711719333564106154941001692746119710583617374176013991241025593216117619459

与种子距离最大值

761451339776908101582420821485395315513985398306100642676091055421153E-1152398143413

最邻近类

456813

23

与最邻近类距离

64359149144502152955312656360143805171472955312622271442893106

类别标号

12345678

各类别数量

977690207316141319

表4 聚类结果分析

群组12345678

比例4193%0136%35110%10153%1158%31123%0105%16123%

客户主要特征

多数为已婚女性;有孩子;高收入;热爱旅游;经常购物;且花销很大;购买产品多为室内用品、服装、厨房用具及休闲品等。多数为未婚女性;高收入;没有孩子;热爱旅游;不经常购物;花销中等;主要购买室内用品,很少买厨具。多数为已婚女性;有孩子;中等收入;不经常旅游;不经常购物;花销中等;无明显购买偏好。多数为女性;约有一半是已婚;中等收入;热爱旅游;经常购物;花销很大;主要购买女性服饰。多数是未婚女性;高收入;热爱旅游;很少购物;花销少;主要购买服装。

多数是已婚女性;有孩子;收入较低;很少旅游;不经常购物;很少购买服装;喜欢买休闲用品。

仅有1人。已婚女性;年龄41;有3个孩子;收入较低;不经常旅游;很少购物;花销很低;主要购买室内用品和餐具。女性;约半数已婚;中等收入;不经常旅游;不常购物;花销中等;喜欢购买室内用品。

726情 报 科 学 24卷

著名的SAS公司的挖掘软件(EnterpriseMiner)实证了数据挖掘方法可以发现客户特征属性之间的隐含信息,从而自动实现客户细分。

从本文的实证结果得知,基于数据挖掘的客户细分,可以任意选定细分变量。比如,传统的人口统计学,包括客户的住址、富裕程度、受教育程度等属性;还可以依据消费金额、购买频率、购买时间段、购买商品种类等变量对客户细分。总之,数据驱动的客户细分为获取客户特征信息提供了更加便利的条件。

表5 第2组和第3组的比较

第2组平均值

31860012901571114$439157

第3组平均值

11570185014911161116$483141

2对3的比率

246%059%49%98%91%

和低消费群体(第5、7组)。三个消费群体所占比例各为:15146%、82180%和1163%。这个结果基本符合著名的/帕累托80P20原则0。

此外,本研究发现,高收入群体不一定就是高消费客户。本例中,高收入组为1、2、5三个组,其中第5组的平均消费总额是最低的,第2组的平均消费总额中等,仅第1组的平均消费总额最高。

类似地,根据对客户的聚类结果,可以发现更多的客户特征及其差异。表5中汇总两个群组的差异。

特 征室内用品休闲品男 装户外用品珠 宝总消费

=4>

参考文献

1 (美)MehmedKantardzic.数据挖掘)))概念、模型、方法和算法[M].闪四清译.北京:清华大学出版社,2003.96-97.

2 JiaweiHanandMichelineKamber.DataMining:Conceptsandtechniques[M].NewYork:MorganKaufmannPublishers,Inc.2001.108-112.

3 EisenM.B.,Spellman,P.T.,Brown,P.O.,andBotstern,D.Clusteranalysisanddisplayofgenome-wideexpressionpat-terns[J].Science,1998,(3):14863-14868.

4 DianeLambert.MiningAstreamofTransactionsforCustomerPatterns[M].NewYork:ACM2001.305-310.

5 ChenX.,andWallace,J.M.ClusteranalysisoftheNorthernHemispherewintertime500-hPaheightfield:spatialpatterns[J].JournaloftheAtmosphericSciences,1993,(6):2647-2696.

6 HallL.,Ozyurt,B.,&Bezdek,J.Clusteringwithageneticallyoptimizedapproach[M].NewYork:IEEETransationsonEvolu-tionaryComputation,1999.103-112.

7 JainA.,andDubes,R.AlgorithmsforClusteringData[M].NewYork:EnglewoodCliffs,Prentice-Hall,1988.20-21.8 J.Magidson.TheCHAIDapproachtosegmentationmodeling:CHI-squaredautomaticinteractiondetection[M].London:Ad-vancedMethodsofMarketingResearch,1994.118-159.9 KaufmanL.,andRousseeuwP.J.FindingGroupsinData:AnIntroductiontoClusterAnalysis[M].NewYork:Wiley,1990.221-223.

10 WedelM,andKamakura,W.A.MarketSegmentation:Concep-tualandMethodologicalFoundations[M].Boston:MA:Kluwer,1998.147-151.

11 ZamirO.,andEtzioni,O.Webdocumentclustering:Afeasibi-l

itydemonstration.Proceedingsofthe21thInternationalACMSIGIRConference[M].NewYork:ACMPress,1998.46-54.

(责任编辑:徐 波)

从表5可以看出尽管第2组和第3组的/总消费0大概相同(差异为9%),在第2组中,/休闲品0方面的消费是/00、/男装0消费是第3组的59%、/户外用品0消费是第3组的49%。但这通

过/室内用品0方面246%的消费增加得到了弥补。因此,尽管都是/中等消费群体0,各群组之间是有差异的。这种分析有助于认识它们为什么不同,还可以对其他群组进行相似的分析。

4 结 论

聚类是根据可度量属性来产生数据驱动的分群,其执行结果将同样使用这些属性来表达。由数据挖掘实现的客户细分目标是:根据所拥有的数据特征发现不同的客户群,而不是根据人为的对最重要特征的判断来发现这些群组。确切地说,客户细分的含义是把有相似特征的客户归到一个组内,同时不同组中的客户间差异最大化。对客户数据聚类(细分)一般要满足的条件是:数据库中的每一个客户都必须属于一个细分群;数据库中的任何一个客户不能同属于多个细分。

本文利用收集到的某超市销售数据库中的部分记录(其中包含了一些客户人口统计数据),运用

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务