SPSS Modeler18.0数据挖掘软件教程(一)

一、SPSS Modeler软件介绍

SPSS Modeler原名Clementine,是一个业界领先的数据挖掘平台,它将复杂的统计方法和机器学习技术应用到数据当中,具有专业性、易用性、扩展性、高性能等特点,提供了从各数据预处理到建模分析的一系列方法,包含图形可视化、描述性统计分析、常用的统计检验分析、回归分析、聚类分析、分类分析、关联分析、神经网络等多个模块。
与利用R语言、Python、Java等进行数据分析处理时对使用者有较高的门槛要求不同,SPSS Modeler这款集成软件采用了图形化的操作界面,我们在对数据进行预处理、分析建模的过程仅仅需要简单的拖拽、点击、设置参数即可,对于从事大数据分析却又缺乏编程基础的学者来说再合适不过了。


SPSS Modeler主界面介绍


本教程中所演示的软件是SPSS Modler18.0,SPSS Modler18.0的主界面如上图所示,主要分为4个区域:1、数据流构建区;2、节点区;3、流、输出和模型管理区;4、数据挖掘项目管理区。


2.2SPSS Modeler基本操作

SPSS Modeler最基本的操作就是将【节点区】的节点拖入到【数据流构建区】,利用数据流进行连接,实现各种功能。比如我们尝试画一个图。
首先,将节点区的【源】节点找到自己要分析的文件类型(sav、excel等),将文件节点拖入数据流构建区域,双击打开,选中要分析的文件。此处使用的是SPSS Modeler自带的telo.sav数据。

然后,将字段选项中的【类型】节点拖入构建区域,建立连接,对不同字段测量属性进行设置。

其次,从节点区的【图形】拖一个【分布】上去,与上面设置好的类型节点连接。

最后,选择好目标字段,点击运行,绘制出分布图如下:


3、小结
通过简单的绘图案例,可以发现SPSS Modelr的操作是十分简单的,后面的教程中我将进行数据的描述性统计、逻辑回归聚类分析、分类分析、关联分析均和上面所举例子的逻辑类似,通过简单的拖拽、连接,设置参数后,原本复杂的模型可以被简单地运用。