欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《分类数据分析》PPT课件.ppt

    • 资源ID:5470383       资源大小:326.49KB        全文页数:42页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《分类数据分析》PPT课件.ppt

    Analysis of nominal data,分类数据分析,分类数据分析简介,分类数据也称名义数据,是社会科学研究的组成部分,其数据信息仅代表数据类别。例如种族,1=白种人,2=黄种人,3=黑人。根据每个类别的数量,可以分析它们之间的关系。分类数据的分析要求研究者应首先决定如何分类。,分类数据分析的应用范围,政治学领域:研究政治立场是否影响政治派别。社会学和心理学领域:分析不同类别的人不同的心理特征。公共政策分析领域:研究不同政策在不同地区产生的效果。文化传播领域:研究人们对媒体的看法。分类数据分析是社会科学中最重要的课题之一。一方面因为它的用途广泛,另一方面因为它解决的是基本问题,一些简单概念的解释,分类:最理想的分类是这些类别相互区别并且没有遗漏。统计过程中都假设分类是有意义的。自变量和因变量:区别在于是否引起另外一个变量的变化。取样:从总体抽取的简单随机样本。符号:I、J表示表格的行数和列数,X、Y、Z表示变量。,表1:党派和立场间的关系,X:党派,Y:立场,表2:受党派和地区影响的立场,Z:地区=西部X:党派,Y:立场,Z:地区=非西部X:党派,Y:立场,表3:标准IJ表格,X:自变量,Y:因变量,相关程度的测量,相关程度的测量方法是用一个系数来表示变量间的相关程度。选择何种方法要考虑三个方面:测量方法是否对称:是否可以确定自变量和因变量。系数如何解释:取决于不同的测量方法制定的标准。测量方法的敏感度:尽量使用敏感度较低的方法。,表5:完全相关的三种类型,Y,Totals,Y,Totals,a 严格完全相关,b 隐含完全相关,c 弱完全相关,干扰因素和解决办法,边际分布不均匀(如表6):调整数据 将表格标准化 选择对边际总数不敏感的测量方法行列不相等:选择可以达到最大值的测量方法。,表6:不同边际分布,相同相关程度,(a),(b),22表格的测量方法,1、百分比法2、差额比率法3、Yules Q4、Yules Y5、6、相关系数,百分比法,如果因变量在自变量的一个分类中的百分比发生了变化,那么这两个变量就是相关的;如果不发生变化,就是独立的。百分比法的性质:对因变量的边际总数不敏感。需要较大的样本容量。,百分比法,0.90.4=0.5,差额比率法,Y:立场,差额比率法的性质,差额比率法的性质,差额比率的性质,差额比率的性质,差额比率的取值范围是从0到,等于1.0说明独立,小于1.0表示消极相关,大于1.0表示积极相关差额比率对边际总数不敏感。差额比率是对称的差额比率在弱完全相关时就达到了最大值。,差额比率的方差,当样本容量大于25时,我们可以计算出差额比率的方差。,我们可以计算置信区间,Yules Q,Yules Q是差额比率的一个函数,定义如下:,它的方差可以由以下公式计算:,Yules Q的性质,因为Q是差额比率的一个函数,因此基本具有和差额比率相同的性质。Q的取值范围是从-1.0到1.0,0说明独立。Q在弱完全相关就取到最大值。Q是对称的。,Yules Y,Yules Y也是差额比率的一个简单函数,定义如下:,它的方差可以由以下公式计算:,基于 的测量方法,定义:,性质:取值范围是从0到1.0。0说明独立,只有严格完全相 关时才达到最大值。对边际总数敏感。它是对称的。,相关系数,在22表格中,计算公式是:,相关系数 的性质,取值范围是从-1.0到1.0。0说明独立,在严格 完全相关时取得最大值。平方表示因变量受自变量影响的百分比对边际总数敏感行列交换不改变结果的大小,只改变符号。,IJ表格的测量方法,IJ表格的测量方法大致可以分成三类:基于差额比率的方法基于 的方法错误减少比例方法(PRE),IJ表格中的差额比率法,IJ表格包含着t=(I-1)(J-1)个22表格,对于每一个22表格都可以计算出 和。差额比率的基本形式是:,i=1,2,I-1;j=1,2,J-1,是估计值公式,与22表格,中有着相同的解释。,基于 的测量方法,几种 函数的模型,错误减少比例方法(PRE),对于样本个体,我们可以在两种情况下预测:第一种情况,不知道样本在X中的类别;第二种情况,知道样本在X中的类别。PRE就是比较两种情况下预测错误的比例。,PRE的性质,取值范围是从0到1.0。0说明独立,1.0说明完全相关。PRE是不对称的,即需要区分自变量和因变量。在样本高度不均匀时,会出现不独立但是结果为0的情况。,Goodman and Kruskals Lambda,Lambda方法是PRE方法的一种,原理是分别计算在两种情况下预测错误的比例,然后进行比较。,第一种情况下的错误比例:,第二种情况下的错误比例:,Goodman and Kruskals Lambda,根据PRE的原理,我们定义:,Lambda的方差,其中 的含义是恰好在 这行上的每列最大值之和。根据方差我们可以计算出置信区间:,Lambda的对称形式,最常见的方法就是将个体随机地对半分给X和Y。第一种情况下,预测Y的正确率是,预测X的正确率是,错误率是第二种情况下,预测Y的正确率是,预测X的正确率是,错误率是,Lambda的对称形式,那么错误降低比例就是:经过整理后:,Goodman和Kruskals Tau,Tau是另外一种PRE方法,同样是在两种情况下进行预测。不同的是Tau中猜测的样本要保持原始数据的分布。公式:,表1:党派和立场间的关系,X:党派,Y:立场,Tau方法的算例,第一种情况:1538人中,一共有574+564=1138人不是革命派,比例是1138/1538=0.74。因此在400人中,大约有4000.74=295.97人是预测错误的。同理,我们可以算出大概有359.78人在预测中立派时预测错误,357.18人在预测保守派时预测错误。于是总共的错误数是:295.97+359.73+357.18=1012.93第二种情况:对于民主党人士,民主党人士非革命派有241+153=394人,394/587=0.67,因此应该有193*0.67=129.54人预测错误。同理计算出中立派和保守派的错误数量分别是142.05和113.12。于是对于民主党人士预测错误的数量是129.54+142.05+113.12=384.71相同的方法计算独立党和共和党最后得出第二种情况的总共的错误数量是:384.71+360.00+231.71=976.42 于是根据PRE的原理我们定义:,各种测量方法的总结,尽管变量间相关程度的测量方法有很多种,但是仍然难以避免各种各样的干扰因素。比如表1,表1样本的分布一方面取决于总体真实的分布,但是我们还要考虑到其它因素。总的说来,对于变量分类越多,测量结果的值就越大。,各种测量方法的总结,两条结论:因为每种方法都有它的优点和缺点,在我们测量变量间的相关程度时,应该用多种方法测量,综合结果得出结论。单独用测量结果解释问题略显不足,应该结合专家的经验和其它相关知识综合评价。,谢谢!,

    注意事项

    本文(《分类数据分析》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开