①激活数据管理窗口,定义变量名。虽然月份分组不做分析变量,但为了更直观地了解聚类结果,也将之输入数据库。
②进行统计分析,在聚类方法上选择Iterate and classify指定初始类别中心点,按K-means算法作迭代分类。对聚类结果进行方差分析结果解释:首先系统根据用户的指定,按四类聚合确定初始聚类的各变量中心点,未经K-means算法迭代,其类别间距离并非最优;经迭代运算后类别间各变量中心值得到修正。
③对聚类结果的类别间距离进行方差分析。方差分析表明,类别间距离差异的概率值均小于0.001,即聚类效果好。这样,原有19类(即原有的19个月份分组)聚合成四类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名qcl_1存于原始数据库中。
在原始数据库(图1)中,可清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为:
第一期,出生后至满月,增长率最高;
第二期,第2个月起至第3个月,增长率次之;
第三期,第3个月起至第8个月,增长率减缓;
第四期,第8个月后,增长率显著减缓。
图1逐步聚类分析的分类结果
(2)运用聚类分析软件可以很方便地对数据进行分析,利用分析的结果,在孩子生长发育时期合理安排好饮食,促进儿童健康快乐成长。同时,聚类分析可以作为其他算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理。本文以改进的K-means算法[9]为例来说明儿童生长发育时期的特征。算法描述如下:
算法:K-means。划分的K-means算法基于簇中对象的平均值。
输入:簇的数目k=4和输入n=19的表2的数据。
输出:四个簇,使平方误差准则最小。
方法:
①任意选择四个对象作为初始簇的中心;
②repeat;
③根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇;
本文原文
④更新簇的平均值,即计算每个簇中对象的平均值;
⑤until 不再发生变化。
在本算法中要用到以下几个定义:
(3)聚类分析也可以进行孤立点的分析。经常存在一些数据对象,它们不符合数据的一般模型,这些数据对象被称为孤立点。孤立点的分析有着广泛的应用[12,13],如欺诈检测即探询不寻常的信用卡使用或电信服务;此外,它在市场分析中可用于确定极低或极高收入的客户的消费行为、或者在医疗分析中用于发现对多种治疗方式的不寻常的反应。
4结束语
本文通过改进的K-means算法和聚类分析工具SPSS来对儿童生长发育期进行分析。
在科技发展的今天,随着信息化产业的不断发展,大量的数据迫切需要强有力的数据分析工具的出现,从而导致了数据挖掘的蓬勃发展,而聚类分析已经成为数据挖掘领域一个非常活跃的研究课题。用户当然希望聚类的结果是可解释的、可理解的和可应用的。如何选择聚类方法和正确地使用聚类算法也是很重要的,而目前所使用的聚类算法均存在某方面的缺陷,也没有统一的标准,因此如何使聚类算法成为像SQL语言那样统一、标准的语言,还有待于计算机工作者的努力。
参考文献:
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002:5-6.
[2]卫生部关于八省(自治区)婴幼儿营养健康状况调查报告[R].北京:新华出版社,2005:1-3.
[3]杭燕.体育幼儿园现代体育课程模式的探索(上)[J]. 学前教育文荟,2000(6):10-12.
[4]GONZALEZ T.Clustering to minimize and maximum intercluster distance[J].Theoretical Computer Science,1985,38(2-3):293-306.
[5]PAL N R,BEZDEK J C.On cluster validity for the fuzzy c-means model[J].IEEE Transactions on Fuzzy Systems,1995,3(3):370-379.
[6]邵峰晶,于忠清.数据挖掘的原理与算法[M].北京:中国水利水电出版社,2003.
[7]HAN Jiawei,KAMBER M.Data mining concepts and techniques[M].范明,孟小峰,等译.北京: 机械工业出版社.
[8]马庆国.管理统计[M].北京:科学出版社,2002:3-120.
[9]WISHART D.K-means clustering with outlier detection:the 25th Annual Conference of the German Classification Society[C].Munich:University of Munich,2001:14-16.