C:\Program Files\IBM\SPSS\Modeler\18.0\Demos。
数据集下载链接:链接: https://pan.baidu.com/s/1tYxzqMOzs0thyew6zVudvw 提取码: 3b9t
该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。
2、操作步骤
2.1描述性统计
(1)数据审核
数据的描述性性统计可以使用SPSS Modeler的【数据审核】功能。例:将数据源节点拖入数据流构建区域,双击打开,选择需要进行分析的文件。
将字段选项中的【类型】节点拖入构建区域,建立连接,对不同字段测量属性进行设置。
对字段的【测量】属性进行设置时,需要注意“标记”、“名义”、“有序”都表示该字段是分类变量,不同的是“标记”只有两个值,如0-1代表那男女、流失与否等,“名义”表示有三个以及三个以上的取值,如:1、2、3、4代表亚洲、欧洲、非洲、澳洲,“有序”代表不同类型之间存在一定的顺序,如1,2,3代表收入低、中、高。对字段角色的设置,则根据字段是作为自变量还是因变量,自变量是输入,因变量是目标。进行数据分析之前,一定要需要根据数据类型将数据测量的属性设置好。
将【输出】节点中的【数据审核】节点拖入构建区,点击运行。
得出如下数据审查结果,其中包含各字段的描述性统计信息。
(2)分类汇总
将节点区的【汇总】节点拖入数据流构建区,将关键字段设置成表示用户流失与否的【churn】,汇总字段选择除了【churn】的剩下所有字段,在汇总字段总可以勾选自己需要的统计指标,如:均值、方差、标准差、合计等。
【汇总】节点设置完成后,再从节点区的【输出】节点中选择【表格】节点拖入数据流构建区,与【汇总】节点连接,点运行,得到各个字段关于【churn】字段的分类汇总统计结果。
2.2数据可视化
点击运行,可以看到流失与非流失客户中,男女的比例大致都是占一半,无明显区别。
点击运行,可以看到流失与非流失客户中,男女的比例大致都是占一半,无明显区别。
将节点区【图形】节点中的【直方图】节点拖入构建区,选择“age”字段绘制直方图。
点击运行,可以得出不同年龄的分布情况。
此外,还可以根据其他不同字段设置【交叠字段】进行绘制,此例在【交叠字段】中设置“ed”作为颜色区分,并在【选项】中勾选显示标准曲线,设置如下。
点击运行,得到如下直方图,不仅可以看到每个年龄的分布,还可以看到不同年龄段中中各个教育程度的占比用不同颜色区分。
(2)分类汇总可视化分析
对于之前所做的针对客户流失与否的【churn】字段的分类汇总数据,可以利用【图形】节点中的【图形板】绘制流失与非流失客户在各个指标上均值的【平行图】。
将【图形板】节点拖入数据流构建区与【汇总】连接,在图形板【基本】选项卡选中需要绘图的字段,上图的例子中选择的是汇总后的均值,然后在【详细】选项卡中将【色彩】选择【churn】,用以区分,设置好后点击运行,得到如下平行图:
将【图形板】节点拖入数据流构建区与【汇总】连接,在图形板【基本】选项卡选中需要绘图的字段,上图的例子中选择的是汇总后的均值,然后在【详细】选项卡中将【色彩】选择【churn】,用以区分,设置好后点击运行,得到如下平行图:
SPSS Modeler中的【图形版】中还有十分丰富的图形可供选择,可以选择进行绘制。如,线图、热力图、箱形图等等,可以按需绘制。
3、小结