欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    聚类和判别分析.ppt

    • 资源ID:5305112       资源大小:984.50KB        全文页数:47页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类和判别分析.ppt

    第九章,聚类和判别分析,主要内容,9.1 聚类与判别分析概述9.2 二阶聚类9.3 K-均值聚类9.4 系统聚类9.5 判别分析,9.1 聚类与判别分析概述,9.1.1 基本概念(1)聚类分析 聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同,聚类分析可分为对样本的聚类和对变量的聚类两种。(2)判别分析 判别分析是判别样本所属类型的一种统计方法。,9.1 聚类与判别分析概述,9.1.2 样本间亲疏关系的度量(1)连续变量的样本间距离常用度量 主要方法有欧氏距离(Euclidean Distance)、欧氏平方距离(Squared Euclidean Distance)、切比雪夫距离(Chebychev Distance)、明可斯基距离(Minkowski Distance)、用户自定义距离(Customize Distance)、Pearson相关系数、夹角余弦(Cosine)等。(公式见教材表7.9)(2)顺序变量的样本间距离常用度量 常用的有 统计量(Chi-square measure)和 统计量(Phi-square measure)。(公式见教材表7.10),9.1 聚类与判别分析概述,9.1.1 基本概念(3)二者区别 不同之处在于,判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样本进行差别分析。,9.1 聚类与判别分析概述,说明:聚类分析的目的是找到样本中数据的特点,因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量,则应先对变量进行标准化处理,而后再进行聚类。变量间的关系度量模型与样本间相类似,只不过一个用矩阵的行进行计算,另一个用矩阵的列进行计算。,主要内容,9.1 聚类与判别分析概述9.2 二阶聚类9.3 K-均值聚类9.4 系统聚类9.5 判别分析,9.2 二阶聚类,9.2.1 基本概念及统计原理(1)基本概念 二阶聚类(TwoStep Cluster)(也称为两步聚类)是一个探索性的分析工具(),为揭示自然的分类或分组而设计,是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法(Hierarchical Algorithms),目前主要应用到数据挖掘(Data Mining)和多元数据统计的交叉领域模式分类中。该过程主要有以下几个特点:分类变量和连续变量均可以参与二阶聚类分析;该过程可以自动确定分类数;可以高效率地分析大数据集;用户可以自己定制用于运算的内存容量。,9.2 二阶聚类,9.2.1 基本概念及统计原理(2)统计原理 两步法的功能非常强大,而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外,为了处理分类变量和连续变量,它用似然距离测度,它要求模型中的变量是独立的,分类变量是多项式分布,连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。,9.2 二阶聚类,9.2.1 基本概念及统计原理(3)分析步骤第1步 预聚类:对每个观测变量考察一遍,确定类中心。根据相近者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树(CF)。第2步 正式聚类:使用凝聚算法对特征树的叶节点分组,凝聚算法可用来产生一个结果范围。,9.2 二阶聚类,9.2.2 SPSS实例分析【例9-1】某机构为了调查学生性别和所学专业与毕业后初始工资的情况,调查抽取了60个学生的数据,如表9.1所示(其中“性别”1代表男性,0代表女性;“学科”1代表农学,2代表建筑,3代表地质,4代表商务,5代表林学,6代表教育,7代表工程,8代表艺术),试根据样本指标进行聚类分析。(数据参见教材P206)第1步 分析:由于自变量中不仅有连续属性,也有分类变量,故采用二阶聚类进行分析。第2步 数据组织:按表所示定义变量,输入数据并保存。,9.2 二阶聚类,第3步 二阶聚类设置:按“分析分类两步聚类”顺序打开“二阶聚类分析”对话框,并按下图进行设置。,9.2 二阶聚类,第4步 主要结果及分析:二阶聚类的模型概要和聚类质量情况,聚类个案情况图,从中可以看出,此算法采用的是两步(二阶)聚类,共输入3个变量,将所有个案聚成3类。聚类的平均轮廓值为0.6(其范围值为-1.01.0,值越大越好),说明聚类质量较好。,可以看出各类所占的比例情况,9.2 二阶聚类,第4步 主要结果及分析:各个案所属的分类号情况,主要内容,9.1 聚类与判别分析概述9.2 二阶聚类9.3 K-均值聚类9.4 系统聚类9.5 判别分析,9.3 K-均值聚类,9.3.1 基本概念及统计原理(1)基本概念 K-均值聚(也称快速聚类)是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类数。分类变量和连续变量均可以参与两步聚类分析。(2)统计原理 如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。由系统首先选择k个观测量(也可以是用户指定)作为聚类的目标,n个变量组成n维空间。每个观测量在n维空间中是一个点。K个事先选定的观测量就是k个聚类中心,也称为初始类中心。按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去;形成第一次迭代形成的k类。,9.3 K-均值聚类,根据组成每一类的观测量计算每个变量的均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心。按照这种方法迭代下去,直到达到指定 的迭代次数或达到中止迭代的判据要求时,迭代就停止了,聚类过程也就结束了。(3)分析步骤第1步 指定聚类数目k;第2步 确定k个初始类中心;第3步 根据距离最近原则进行分类;第4步 重新确定k个类中心;第5步 迭代计算。,9.3 K-均值聚类,9.3.2 SPSS实例分析【例9-2】测量12名大学生对高等数学的心理状况和学习效果,主要包括四个因素:学习动机、学习态度、自我感觉、学习效果,具体数据如下表所示。试将该12名学生分成3类以分析不同心理状况下学生的学习效果。,9.3 K-均值聚类,第1步 分析:由于已知分成3类,故可采用快速分类法。第2步 数据组织:按如上表的表头所示建立变量,将“编号”变量的数据类型设为字符型(作为标识变量)。第3步 快速聚类设置,按“分析分类K-均值聚类”顺序打开“K-均值聚类分析”对话框,将“学习动机”、“学习态度”、“自我感觉”、“学习效果”四个变量选入“变量”列表框。将“编号”变量移入“个案标记依据”框中;将“聚类数”设为3。其余“迭代”、“保存”和“选项”设置参见教材。,9.3 K-均值聚类,第4步 主要结果及分析:,初始聚类中心表,迭代历史表,由表可知,第一次迭代后,3个类的中心点分别变化了8.193,9.889和13.472。一共进行了10次迭代,达到聚类结果的要求(达到最大迭代次数),聚类分析结束。,由于没有指定初始聚类中心,列出了由系统指定的类中心。与原数据比较,发现它们分别是第1、第6和第7号个案。,9.3 K-均值聚类,最终聚类中心表,如第1类的学习动机值为39,学习态度值为77,自我感觉值为55,学习效果值为45。,样本数情况,可看出第1,2,3类中分别含有2,4,6个样本,9.3 K-均值聚类,分类保存情况,查看数据文件,可看到多出两个变量,分别表示每个个案的具体分类归属和与类中心的距离。,主要内容,9.1 聚类与判别分析概述9.2 二阶聚类9.3 K-均值聚类9.4 系统聚类9.5 判别分析,9.4 系统聚类,9.4.1 基本概念与统计原理(1)基本概念 系统聚类是效果最好且经常使用的方法之一,国内外对它进行了深入的研究,系统聚类在聚类过程中是按一定层次进行的。具体分成两种,分别是Q型聚类和R型聚类,Q型聚类是对样本(个案)进行的分类,它将具有共同特点的个案聚集在一起,以便对不同类的样本进行分析;R型聚类是对变量进行的聚类,它使具有共同特征的变量聚在一起,以便对不同类的变量进行分析。,9.4 系统聚类,9.4.1 基本概念与统计原理(2)统计原理 系统聚类是根据个案或变量之间的亲疏程度,将最相似的对象聚集在一起。根据系统聚类过程的不同,又分为凝聚法和分解法两种。凝聚法的原理是将参与聚类的每个个案(或变量)视为一类,根据两类之间的距离或相似性,逐步合并直到合并为一个大类为止;分解法的原理是将所有个案(或变量)都视为一类,然后根据距离和相似性逐层分解,直到参与聚类的每个个案(或变量)自成一类为止。在层次聚类中,度量数据之间的亲疏程度是极为关键的。在衡量样本与样本之间的距离时,一般使用的距离有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距离、Block距离、明可斯基距离(Minkowshi)、夹角余弦(Cosine)等。,9.4 系统聚类,9.4.1 基本概念与统计原理(2)统计原理 衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下7种:最短距离法(Nearest Neighbor);最短距离法(Nearest Neighbor);最长距离法(Furthest Neighbor);类间平均链锁法(Between-groups Linkage);类内平均链锁法(Within-groups Linkage);重心法(Centriod Clustering);中间距离法(Median Clustering);离差平方和(Wards Method)。,9.4 系统聚类,9.4.2 SPSS实现举例【例9-3】已知29例儿童的血中血红蛋白、钙、镁、铁、锰、铜的含量如下表,试对数据进行变量聚类分析。,9.4 系统聚类,第1步 分析:根据题目要求,需进行变量聚类分析(即R型聚类),故采用系统聚类分析中的R型聚类进行处理。第2步 数据组织:如上表定义七个变量:“order”(编号)、“ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、“cu”(铜)和“hemogl”(血红蛋白),其中“order”为字符串型,其余变量为数值型。第3步 进行按变量聚类的设置:按“分析分类系统聚类”打开“系统聚类分析”对话框,将“ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、“cu”(铜)和“hemogl”(血红蛋白)几个变量选入“变量”列表框。设置按“变量”分类,并选择输出“统计量”和“图”,以激活“统计量(S)”和“绘制(T)“两个按钮。具体如下面图所示。,9.4 系统聚类,9.4 系统聚类,第4步 主要结果及分析:,凝聚顺序表,第1步是第4个变量和第5个变量进行聚类,变量间的距离系数为6.028,这个结果将在第2步中用到;第2步是经过第1步聚类后的变量4和变量5与变量6进行聚类,变量间的距离系数为54.938,这个结果将在第4步中用到。以此类推,这6个变量经过5步聚类最终聚成一个大类。,9.4 系统聚类,第4步 主要结果及分析:,系统聚类的冰柱图,图的纵坐标表示聚类的数目,我们从图的最下方看起,从5类,逐渐到4类、3类、2类,最后聚成一个大类。首先是“铜”和“锰”聚成一类,其余每个变量各为一类。第2步再将“血红蛋白”聚到“铜”和“锰”一类中,原先的6个变量就变成了4类。以此类推,经过5步聚类,最后将所有变量聚成了一个大类。,9.4 系统聚类,第4步 主要结果及分析:,系统聚类的树状图,第1步将“cu(铜)”和“mn(锰)”聚成一类,第2步将“hemogl(血红蛋白)”聚到“cu(铜)”和“mn(锰)”类中,第3步将“ca(钙)”和“mg(镁)”聚成一类。以此类推,最后聚成一个大类。这与聚类顺序表和聚类冰柱图的分析结果是一致的。,主要内容,9.1 聚类与判别分析概述9.2 二阶聚类9.3 K-均值聚类9.4 系统聚类9.5 判别分析,9.5 判别分析,9.5.1 基本概念与统计原理基本概念 判别分析(Discriminant Analysis)是多元统计分析中用于判别样本所属类型的一种统计方法。它要解决的问题是在一些已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类。判别分析是应用很强的一种多元统计分析方法。(2)统计原理 判别分析按判别组数来分,有两组判别分析和多组判别分析,按区分不同总体所用的数学模型来分,有线性差别和非线性判别。判别分析可以从不同的角度提出问题,因此有不同的判别准则,如费歇尔(Fisher)准则和贝叶斯(Bayes)准则。,判别函数的一般形式是,9.5 判别分析,分析步骤第1步 计算特征值:计算需要用到的一些反映样本的特征值,比如均值、协方差矩阵等。第2步 建立判别函数:判别函数的一般形式如式10.1建立判别函数就是要确定这些系数。第3步 确定判别准则:如费歇尔(Fisher)准则和贝叶斯(Bayes)准则。第4步 检验判别效果:验证判别函数用来进行判别时的准确度。第5步 分类:根据所建立的判别函数对待判样本进行分类。,9.5 判别分析,9.5.1 SPSS实例分析【例9-4】下表是健康人(c=1)、硬化症患者(c=2)和冠心病患者(c=3)三种人群的心电图的5个指标(x1x5)数据,其中有19个样本是确定的分类,另又测出4个人的相关指标,试根据确定分类的样本对这未确定的样本进行分类。,9.5 判别分析,第1步 分析:由于部分样本已经有分类标记,还有几个待分类样本。这显然属于根据已知分类样本的信息对未分类样本进行分类的情况,用判别分析进行处理。第2步 数据组织:建立7个变量。分别是“序号”、“x1”、“x2”、“x3”、“x4”、“x5”和“c”,均为数值型变量。输入数据,对第20条23条的类别“c”变量,不填数据,作为缺失值处理,存盘并保存。第3步 进行按变量聚类的设置:按如下图示进行设置,9.5 判别分析,9.5 判别分析,第4步 主要结果及分析:,分析案例处理摘要表,表明共23条记录,已分好类的19条,有4条需进行分类。,汇聚的变量之间相关矩阵表,给出了这五个自变量之间的相关系数,如变量“x1”与变量“x2”之间的相关系数为0.059。,9.5 判别分析,特征值表,由于本例中预测变量为5个,类别数为3,因此判别函数的个数为2(即min(3-1,5)=2)。判别函数的特征值越大,表明该函数越具有区别力。第一个判别函数的特征值为1.386,第二个为0.408。,判别函数的显著性检验结果表,其中“1到2”表示两个判别函数的平均数在3个级别间的差异情况。“2”表示在排除第一个判别函数后,第二个函数在3个级别间的差异情况。从最后的显著性概率Sig.来看,其两个判别函数的效果并不十分显著,9.5 判别分析,判别系数表,9.5 判别分析,分类结果概述表,从表中可以看出,有23条个案被成功分类。,9.5 判别分析,分类函数系数表,9.5 判别分析,各类区域图及分类标记情况图,这是以根据每个个案计算出的判别分数为坐标,以典则判别函数1为横轴,以典则判别函数2为纵轴,所绘出的散点图。可以看出,在图中分出了1,2,3三个区域,在图中也标出了各类的中心(其中心用“*”表示)。,9.5 判别分析,分类结果矩阵,对角线显示的为准确预测的个数,其余为错误预测的个数。从该表可以看出,已经分的19个个案正确分类17个,错误分类2个。正确率还是比较高的。根据这19个个案为先验数据,将待分类的4个个案分别分入1,2,3类的分别有1,1,2个。,9.5 判别分析,分类保存结果图,The End,

    注意事项

    本文(聚类和判别分析.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开