欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    应用统计学(第三版)马立平等ppt课件.ppt

    • 资源ID:1826777       资源大小:6.50MB        全文页数:225页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用统计学(第三版)马立平等ppt课件.ppt

    ,应用统计学(第三版),首都经济贸易大学出版社,北京高等教育精品教材,目录,CONTENTS,第一章 统计学与统计数据第二章 统计数据收集的方法与数据质量第三章 数据的图表展示第四章 数据的统计量描述第五章 概率抽样与抽样分布第六章 参数统计第七章 参数的假设检验,第八章 方差分析第九章 非参数的假设检验第十章 相关分析与回归分析第十一章 主成分与因子分析第十二章 列联分析与对应分析第十三章 聚类分析与判别分析第十四章 时间数列分析与预测,第一章 统计学与统计数据,第一节 统计学的产生与发展第二节 统计学的性质与特点第三节 统计数据与统计规律第四节 经济管理实践中的统计统计应用的领域之一,1,第一节,统计学的产生与发展,一、统计学的产生,17世纪中叶,西方社会首次出现了有意识地用数字语言说明问题, 从数量的角度探索客观事物变化规律的研究活动。当时,最具有代表性 的主要有政治算术学派和国势学派。政治算术学派的代表人物是英国的学者威廉配第(),著作政治算术。在统计史的研究中,一般把以威 廉配第为代表的关于社会经济现象“算术”式的研究,称为“政治 算术”。政治算术学派还有一位重要的人物约翰格 朗特()关于死亡表的自然观 察与政治观察。“国势学”主要研究有关国家兴衰强弱的重大问题以及治理国 家必备的方法。统计学的另一个重要起源是概率论。真 正意义上的概率论是从 世纪开始的。拉普拉斯是古典概率论的集大成者。,第一节,统计学的产生与发展,二、统计学的发展,凯特勒()是统计学发展史上承前启后的重要人物。把概率论全面引进“政治算 术”、“国势学”以及其他社会问题的研究。世纪后半期,统计学在生物遗传学、农业田间试验等领域取得了 创新性的成果。进入 世纪,新的统计思想和统计方法大量涌现,带有归纳性质的 统计推断逐渐占据了主流地位。总体上说,世纪以来,传统意义上的统计学的发展有三个明显的 趋势:首先,随着数学的发展,统计学依赖和吸收数学方法的程度越来越 深;其次,统计学方法向其他学科领域广泛渗透,以统计学为基础的边缘 学科不断形成;最后,随着统计学应用的日益广泛和深入,特别是随着计 算机的发展和大数据的形成,统计学正发挥着越来越大的作用。,第一节,统计学的产生与发展,三、统计学科体系,(一)理论统计学统计估计。假设检验。抽样调查。试验设计。非参数统计。时间序列。统计决策。序贯分析。多元统计。统计诊断。稳健统计。探索性分析。,(二)应用统计学统计计算方法。应用统计学的理论基础。应用统计学。其他。统计学与其他应用数学学科结合,形成新的应用数学方法的基础学科,如博弈论、多目标决策、随机规划等。,第二节,统计学的性质与特点,一、什么是统计学,“统计学是收集、分析、表述和解释数据的科学。”不列颠百科全书,统计学研究的是客观现象的数量方面,统计离不开数据。,第二节,统计学的性质与特点,二、统计学的研究方法,(一)大量观察法大量观察法是指在客观事物的研究中,从总体出发,对其全部单位或足够多的单位进行观察和分析研究的方法。(二)综合指标法综合指标法是表明事物总体数量特征的数据,它是统计学研究事物总体数量方面的基本手段或工具。(三)归纳推断法归纳推断法是指以一定的置信标准,根据样本数据来判断总体数量特征的归纳方法。,第二节,统计学的性质与特点,三、统计学的性质与研究对象,第一,统计学是一门关于数据的科学,统计研究的是客观事物的数量特征,包括数量状态、数量关系和数量变化规律,统计的基本语言是数据。第二,统计学对大量同类现象的数量方面进行综合反映与研究,也就是说,统计学的研究对象是客观现象总体的数量,单个数据的分析与 研究不是统计学的研究对象。第三,统计学的研究对象是不确定的现象,即随机性的变量。第四,统计的基本方法是归纳推断。,第三节,统计数据与统计规律,一、数据的计量尺度,第三节,统计数据与统计规律,二、数据的类型,第三节,统计数据与统计规律,三、统计规律,统计学是收集、分析、表述和解释数据的科学。通过对大量现象的观察或重复进行多次相同的实验并获取大量的数据后,我们就可以利用统计方法找到其内在的数量上的规律性。,之所以可以通过大量的数据认识事物变化的规律性,是因为客观事物本身是必然性与偶然性的对立统一,必然性反映了事物的本质特征和规律,而偶然性则反映了事物之间具体表现上的差异。,第四节,经济管理实践中的统计统计应用的领域之一,经济管理统计应用中既包括宏观领域的经济统计分析;也包括微观领域中的企业商务管理统计的应用,即管理统计学等。此外,还有经济学家常被要求对未来的经济或对未来经济的某一方面提供预测,他们在进行这种预测时,要使用各种统计信息。,第二章 统计数据收集的方法与数据质量,第一节 统计数据的来源第二节 数据收集的方法第三节 问卷的设计第四节 统计数据的质量,2,第一节,统计数据的来源,一、数据的间接来源,二手数据主要是公开出版或公开报道的数据。有些是尚未公开出版的数据,这类数据的收集一般称作文案调查。,文案调查通常按以下几个步骤进行:,第二节,统计数据的来源,二、数据的直接来源,数据的直接来源主要有两个渠道:一是统计调查或观察,二是基于实验设计基础上的实验。,(一)统计调查方式普查抽样调查()主观抽样调查()概率抽样调查,(二)实验设计方式实验设计一般包括五个相互关联的环节:一、根据实验的目的,设计实验方案,以保证每一个非被实验因素对被实验因素的作用相同,以突出被实验因素的效应,合理优化实验的次数;二、方案的实施;三、对实验结果进行测量,取得实验数据资料;四、运用统计方法,对实验数据进行分析,形成相应的结论;五、根据数据分析的结果,得出实验的结论。,第二节,数据收集的方法,一、访问法,第二节,数据收集的方法,二、报告法,第二节,数据收集的方法,三、观察法,观察法是指调查者通过直接观察、跟踪和记录被调查者的情况来收 集资料的一种调查方法。观察法不同于日常生活中的观察,它具有目的性、计划性和系统性,而且要求观察者对所观察到的事实作出实质性的结论。,选择具体的方法时,需要综合比较各种方法的调查范围、调查对象的可控性、影响回答的因素、回收率、回答速度、回答质量和费用等,从而选择最适合的方法。,第三节,问卷的设计,一、问卷的概念和作用,问卷是现代调查中使用最为普遍的用于收集数据的一种表述调查项目的形式。问卷是指按询问提纲及要求填选答案的调查表。问卷不但有利于调查内容的系统化、标准化,便于对所取得的数据进行统计处理和定量分析,而且还可以节省调查时间,提高工作效率。设计一份科学、完善的问卷,是调查得以成功的重要保证。,第三节,问卷的设计,二、问卷的基本内容与格式,第三节,问卷的设计,三、问卷设计中的询问技术,(一)问题的主要类型及询问方式根据所提问题性质的不同,可将问题分为直接性问题、间接性问题和假设性问题。根据对问题的作答方式不同,问卷中的问题可分为开放性问题、封闭性问题等。封闭性问题例如: 您的家庭目前收支情况总体上是( )。 有较多的节余 略有节余 收支基本平衡 入不敷出半开放、半封闭性的问题例如: 您目前最迫切需要解决的问题是( )。 购买住房 子女入学及教育 提高收入 医疗保障 就业 带薪休假 其他(请写出) 根据所提问题内容的不同,问卷中的问题可分为事实性问题、行为性问题、动机性问题和态度性问题。行为性问题例如: 以下社区文化设施中,您最经常去的是( )(限选三项)。 图书馆 文化站 社区文化室 文化广场 影剧院 博物馆 健身运动场所 其他(请注明),第三节,问卷的设计,三、问卷设计中的询问技术,(二)设计问句时应注意的几个问题,第三节,问卷的设计,四、封闭性问题答案的设计技术,(一)答案选项设计的基本方法二选一。多项选择。第一,由于所设答案选项不一定能表达出被调查者所有的看法,所 以,在问题的最后通常可设“其他”选项,以便使被调查者表达自己的看法; 第二,多项选择中,由于选项较多,选项的顺序可能会影响被调查者 的选择,从而使调查结果发生偏差,因而选项的顺序既可以随机排列,也 可以按字数的多少顺序排列。排序法。例如: 您认为目前对北京城市环境威胁最大的因素是( )(请按程度大 小顺序排列)。 塑料包装等白色污染物 废电池等电子垃圾 噪声污染 机动车污染物排放 工地扬尘 水污染 生活垃圾 其他(请注明)两两比较法。例如: 请比较下列每一对文化产业园区,哪一个是您更喜欢的?(每一对 中只选一个划) 中国(怀柔)影视基地 艺术区 798艺术区 潘家园古玩艺术品交易园区 潘家园古玩艺术品交易园区 宋庄原创艺术与卡通产业区 宋庄原创艺术与卡通产业区 琉璃厂历史文化产业园区 琉璃厂历史文化产业园区 北京(房山)历史文化旅游区 北京(房山)历史文化旅游区 前门传统产业区 ,(二)答案选项设计的要求例如: 您经常看哪个栏目的电视节目? 经济生活 道德观察 新闻联播 其他(请注明) 经常看 偶尔看 根本不看,第三节,问卷的设计,五、问卷的编排设计和要求,(一)问卷的顺序容易回答的问题放在前面,较难回答的问题放在中间,敏感性的 问题放在后面。 封闭性的问题放在前面,开放性的问题放在后面。这是由于封闭 性的问题有现成的答案,较易回答; 而开放性的问题需要被调查者花费 一些时间考虑并填写,放在前面容易让人产生畏难情绪,从而不利于调 查的顺利进行。 要注意问题之间的逻辑顺序,如可按时间顺序、类别顺序等进行 排列。 (二)问题的衔接例如: “您家有汽车吗?”( ) 有 如果有,您家的汽车是:()国产 ()进口 ()合资 无例如: 您看过导报这份报纸吗?( ) 经常看 偶尔看 从没看过(跳转到 )您对导报的总体评价是( )。 满意 一般 不满意,第四节,统计数据的质量,一、统计数据的质量,调查阶段的数据质量最为重要。评价数据质量的标准或对数据的基本要求是准确、及时、全面、系统。其中,对数据准确性的评价,往往可以从统计数据误差的角度进行。 为使数据质量检查有一个定量的描述依据,我们把统计数据质量的准确性解释为获得的观察值与客观现象实际数量水平之间的离差。离差大, 说明数据的准确性即数据的质量较差;离差小,说明数据的准确性即数 据的质量较好。,第四节,统计数据的质量,二、统计数据的误差,(一)抽样误差即使所收集的样本数据完全正确可靠,它和总体真值之间也往往会存在差异,这种差异是由样本对总体的代表性所导致的,所以称为抽样误差。如果我们用 表示总体的均值,随机抽样得到样本的均值为x,则 x 就定义为抽样误差。采用计算标准差的方法来计算平均误差,并因而称其为抽 样 标 准 误 差 (后 面 简 称 为 抽 样 误 差),其定义用公式表示,则为 。(二)非抽样误差未响应导致的误差,也称为无回答误差。有意无回答现象对总体数据估计 推断可能产生的影响有:第一,由于无回答而使有效的样本量减少,从而使抽样误差增大,达 不到原抽样设计时调查精度的要求。第二,由于无回答而带来估计量的偏误,而且这种偏误并不会由于 样本量的增大而减少。抽样框导致的误差。所谓抽样框,就是在抽样时,用以从中抽取 样本单位的包括全部总体单位的一个名单或框架。根据研究目的所确定的理想总体称为目标总体,抽样框所代表的总 体通常称为抽样总体。,第四节,统计数据的质量,二、统计数据的误差,抽样误差:属于代表性误差,在随机抽样中有时抽中偏小的单位,有时则抽中偏大的单位,这种误差没有系统性的方向。随着样本量的增大,其抽样误差会由于相互抵消而缩小。,非抽样误差:有系统性,根据不同的情况会偏向于某一方向,不会因样本量的增大而减少。,第四节,统计数据的质量,三、统计数据质量的检查与要求,(一)后验方法后验方法是在调查工作已经完成后,不用亲临调查现场,而是通过对数据进行逻辑关系分析和计算比较,以及将调查数据与独立来源的资 料加以对比,以确定调查数据的质量。后验方法仅适用于对最后 调查结果的检查,不能用于单项数据误差的评估。(二)抽样检查抽样检查是指在一次调查之后,在尽量短的时间内再从这些被调查 单位中随机抽取一定数量的单位组成样本进行重新调查,将两次调查结果进行比较,以分析调查数据的质量,并对所收集的数据进行修正。抽样检查,必须是在一次调查之后不久就要进行,以免 调查对象及调查环境已发生较大的变化而导致评估无效。由于样本数据是检查的标准,因而样本数据的抽取、收集与核查,需要安排专业 的统计人员进行。此外,样本单位的确定要考虑到随机性的要求,而且, 在考虑预算费用约束的条件下,要保证有合理的样本量。,第三章 数据的图表展示,第一节 定性数据的图表展示第二节 定量数据的图表展示第三节 统计图表应用中的几个问题,3,第一节,定性数据的图表展示,一、统计分组,(一)平行分组体系,(二)复合分组体系,第一节,定性数据的图表展示,二、定性数据的频数分布表,定性数据包括分类数据和顺序数据。定性数据本身就是对事物的一种分组,因此,只要先把所有的类别都列出来,然后统计出每一类别的数据个数(即频数),就可以进一步形成分组列表,也称频数分布表。,【例3-1】我们将 年某地区城镇从业人员按其所在企业的登记 注册类型分组,并进行统计,形成下面的频数分布表。,第一节,定性数据的图表展示,三、定性数据的统计图示,(一)条形图与柱形图,条形图是用宽度相同的条形来表示数据多少的图形,主要用于观察不同类别数据的多少和进行各项信息的比较等。反映数据分布特征多用柱形图,而用数量观察各项信息的大小可以采用条形图。,第一节,定性数据的图表展示,三、定性数据的统计图示,(二)帕累托图,帕累托图是按各类别数据出现的频数的多少排序后绘制的条形图。,(三)饼图,饼图一般用来描述和表现各类数据或某一类数据占全部的百分比。,第一节,定性数据的图表展示,三、定性数据的统计图示,(四)环形图,饼图只能显示数据集合中各类数据所占的比例。环形图与饼图类似,但又有区别。环形图可显示多个数 据集合各部分所占的相应的比例,有利于对各数据集合构成的比较。,第二节,定量数据的图表展示,一、定量数据的频数分布表,定量数据(包括定距数据和定比数据)在生成频数分布表时,需要先将原始数据按照某种标准分成不同的组别,然后再统计出各组别的数据频数,形成频数分布表。,需要如下三个步骤:,(一)确定组数组数的确定方法有两种。一种是首先确定总体各单位在所选定的数量分组标志下的差别,有几种质的差别就分几组,要尽量保证组间数据资料的差异性与组内数据资 料的同质性。另一种方法是根据数据的多少、数据差异的大小来确定,一般数据越多,差异越大,组数就越多;而数据越少,差异越小,则组数就越少。(二)确定组距(三)确定组限组限是组与组之间的界限,组限 包括上组限和下组限,其中各个组的起点值为下组限,终点值为上组限。确定组限时,一般要求:第 组的下限应小于或等于所有数据中 的最小值,最后一组上限应大于或等于所有数据中的最大值。组限值 应尽量取整数;对于连续型变量,相邻两组的 组的上下限要重叠,避免出现遗漏的现象。,第二节,定量数据的图表展示,二、定量数据的统计图示,(一)直方图直方图是用矩形的宽度和高度来表示频数分布。,(二)折线图,折线图又称为多边形图,是把直方图中各长方形顶端的中点顺次用线段连接起来,得到的表示频数(或频率)分布情况的一种统计图。,第二节,定量数据的图表展示,二、定量数据的统计图示,(三)曲线图曲线图用一条光滑的曲线近似地描绘频数分布折线图, 得到频数分布图。,(四)茎叶图,茎叶图,是指把每个观察数据划分为两个部分,并分别用茎或叶表示,然后把数据的茎按从小到大的顺序排列,再在每个茎的后面列出数据的叶的部分,由此所得到的图形称为茎叶图。,利用Excel无法绘制出茎叶图。如果使用茎叶图,可以借助于SPSS软件。,第二节,定量数据的图表展示,二、定量数据的统计图示,(五)箱线图,(六)雷达图,雷达图是从一个点出发,用每一条射线代表一个变量;将多个变量的数据点连接成线,即围成一个区域;多个数据集合围成多个区域,即形成雷达图。,是由一组数据的最大值、最小值、中位数、两个四分位数等个值绘制而成的。,第二节,定量数据的图表展示,二、定量数据的统计图示,(七)散点图,散点图一般用来表现两个变量之间的相互关系。两个变量的任何一对取值都在平面直角坐标系上代表一个点。在平面坐标系上将所有这样的点绘制出来,便形成了散点图。,第三节,统计图表应用中的几个问题,一、合理使用统计图,第一,要画什么样的图,首先要看数据的类型。第二,注意统计图坐标轴的刻度。第三,绘制统计图时,要在标志和说明里表示清楚图里面画的是什 么、单位是什么等信息,要让数据很醒目。第四,注意不同类型统计图的作用,选用恰当的统计图。第五,我们眼睛所看到的,除了高度之外还有面积。当所有长 条的宽度一样时,面积(高度乘宽度)和高度成正比,所以,我们眼睛接收到的信息是正确的印象,因而我们画柱形图时,每个长条都要一样宽。,第三节,统计图表应用中的几个问题,二、统计图的绘制,(一)利用Excel绘制统计图,第三节,统计图表应用中的几个问题,二、统计图的绘制,(二)利用SPSS软件绘制统计图,第四章 数据的统计量描述,第一节 数据集中趋势的测度第二节 数据离散程度的测度第三节 数据分布形状的度量第四节 描述数据特征的统计量的计算与应用,4,第一节,数据集中趋势的测度,一、平均数,反映一组数据集中趋势水平的指标包括平均数、中位数和众数等。,(一)算术平均数简单算术平均数。若有个数据 ,则该组数据的平均数为:,加权算术平均数。,加权算术平均数受两个因素的影响: 一是各组变量值的大小,二是各变量值出现的频数的多少。,当各组频数都相等,即在 的情况下,加权算术平均数与简单算术平均数存在下面的关系:,简单算术平均数是加权算术平均数的一个特例,即简单算术平均数是权数相等条件下的加权算术平均数。,将各组变量值 乘以相应的频率后求和,即得到加权算术平均数,其计算公式为:,第一节,数据集中趋势的测度,一、平均数,计算算术平均数的权数主要有两类:客观权数和主观权数。()客观权数。客观权数是指与被平均的变量存在客观联系的指标。 客观权数的确定可以从以下两个方面考虑:一是在频数分布中,以各变量值出现的频数或频率为权数;二是根据事物之间的相互联系,选择与变量存在直接数量关系的指标为权数。()主观权数。在有些情况下,缺少或不存在客观权数的资料,但又需要体现被平均对象在总体中的重要程度。这时,需要根据人们的经验 设定权数。这种权数称为主观权数。一般来讲,在总体中作用较大的赋予较大的权数,作用较小的赋予较小的权数。,(二)几何平均数几何平均数是 个数值乘积的 次方根。简单几何平均数。加权几何平均数。,第一节,数据集中趋势的测度,二、中位数,中位数是指将数据集合中所有数据按大小顺序排列,处于中点位置数据的统计量描述的数据。,中位数的确定方法有以下三种:第一,根据未分组的原始数据确定中位数。当数据的个数为奇数时,中位数所在的位置为 ,该位置上的数 值为中位数;当数据的个数为偶数时,中位数的位置有两个,一个是 , 另一个是 ,这两个位置上的数值的平均数则为中位数。第二,根据单项式变量分布数列确定中位数。,首先要确定 中位数所在的位置找到中位数所在的具体位置上的值,即计算累计频数162的组所对应的数据,本例中为第3组的数据3。故家庭人口数的中位数为3人。,第一节,数据集中趋势的测度,三、众数,(一)根据单项式变量数列确定众数 找出次数最多的数据。(二)根据组距分布数列估计众数下限公式:上限公式:众数是根据数据出现的频数的多少确定的,因此不受极端值的影响。,第一节,数据集中趋势的测度,四、算术平均数、中位数和众数的关系,平均数、中位数和众数的特点:均值(即平均数):容易受少数极端值的影响。中位数:是数据按照大小排列之后位于中间的那个数,不易受极端值影响。,第二节,数据离散程度的测度,一、极差与四分位差,(一)极差极差是数据集合中最大值与最小值之差:极差说明了总体中所有数据值的变动范围。极差越大,说明数据的 变动范围大,从而说明数据的差异大,反之则小。当两个极端值差异较大,而其他数据却集中于较小区间内或均匀分布在两个极端数值之间时,极差就不能确切地反映全部数据之间的差异。(二)四分位差四分位差是一组数据 75位置上的四分位数与25位置上的四分位数之差,也称为内距或四分位差。通常所说的四分位数是指处在25位置 上的数值和处在 75位置上的数值,见图 。,和位置上的四分位数位置的确定方法为:分位数位置:分位数位置:,第二节,数据离散程度的测度,二、方差与标准差,方差 是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差 的平方根。 表示总体方差,用 表 示总体标准差, 代表样本方差, 代表样本标准差。(一)总体方差和标准差简单平均法。标准差计算公式:,加权平均法。,第二节,数据离散程度的测度,二、方差与标准差,(二)样本方差与标准差未分组数据的方差:未分组数据的标准差:分组数据的方差:分组数据的标准差:,第二节,数据离散程度的测度,三、离散系数,离散系数是测定变量值离散程度的相对指标,可以用数据的标准差 与其相应的均值之比来表示。,离散系数与平均数代表性的优劣呈反方向关系:离散系数大,说明 变量值的差异程度大,数据的稳定性差,平均数的代表性差;离散系数小,说明变量值的差异程度小,数据的稳定性强,平均数的代表性强。,第三节,数据分布形状的度量,一、偏态系数,偏态系数是用来反映数据分布偏斜程度的统计量。,(一)Pearson偏度系数Pearson偏度系数是以标准差为度量单位计算的众数与算数平均数的离差,其计算公式是:SK通常取值为-3至 +3之间,其绝对值越大,表明偏斜程度越大; 反之,则表明偏斜程度越小。 当 SK时,分布为对称分布;当 SK时,分布呈左偏分布,或称负偏态;当SK时,分布呈右偏分布,或称正偏态。(二)矩法偏度系数矩法偏度系数就是三阶矩与标准差的三次方之比。当时,分布为对称分布;当时,分布呈左偏分布,或称负偏态;当 时,分布呈右偏斜分布,或称正偏态。,第三节,数据分布形状的度量,二、峰态系数,峰态系数就是用来反映数据分布峰值的高低,说明数据分布曲线的顶端尖削或扁平程度的系数。,计算公式是:,当 时,数据的分布峰度表现为与正态相同;当 时,为尖峰分布,表明数据分布曲线的顶部较正态分布曲线更为陡峭,且 越大,顶部就越陡峭;当 时,为平顶分布,表明数据分布在众数附近,比较分散,使得频数分布曲线的峰顶较正态分布曲线平缓,且 值越小,顶部就越平坦。,第四节,描述数据特征的统计量的计算与应用,一、用Excel计算,第四节,描述数据特征的统计量的计算与应用,二、用SPSS软件计算,第五章 概率抽样与抽样分布,第一节 随机变量的概率分布第二节 概率抽样方法第三节 抽样分布与中心极限定理第四节 常用的抽样分布第五节 几个重要的小样本抽样分布,5,第一节,随机变量的概率分布,一、随机变量,用于描述试验结果的变量称为随机变量。,随机变量,连续型随机变量,离散型随机变量,若随机变量 的所有可能取值可以列举,即所有可能取值为有限个或无限可列个,则称为离散型随机变量;,而如果随机变量 的所有可能取值不能逐个列举出来,而其所有可能值为某一区间(例如,一批电子元件的寿命就是在某一区间范围内),这时称 为连续型随机变量。,第一节,随机变量的概率分布,二、离散型随机变量的概率分布,(一)离散型随机变量概率分布的表示方法两个基本条件:第一,每个变量值的概率均为非负;第二,所有可能取值的概率之和必须等于(100)。对于离散型随机变量,设其所有可能取值为 1,取这些值的概率依次为 ,其概率分布的表示方法主要有以下三种: 公式法。列表法图示法。,第一节,随机变量的概率分布,二、离散型随机变量的概率分布,(二)离散型随机变量的期望值与方差离散型随机变量的期望值。随机变量的期望值记为(),其计算公式是:一个随机变量的数学期望是对该随机变量概率分布中心位置的度量,它反映了随机变量的平均取值。离散型随机变量的方差。,第一节,随机变量的概率分布,二、离散型随机变量的概率分布,(三)常用的离散型随机变量的概率分布两点分布或 分布。设随机变量只可能取与两个值, 它们的概率分布是:二项分布。服从二项分布的随机变量的期望值和方差分别为:标准差为:泊松分布。泊松分布常用来描述在一指定时间范围内或者在指定的面积、体积之内,某一事件出现的个数的分布。设随机变量 可取无穷多个值 ,其概率分布为:,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,(一)概率密度函数与分布函数概率密度函数。概率密度函数应满足这两个条件:当连续型随机变量分布曲线可以用数学函数形式()表示时,我们称()为概率密度函数。连续型随机变量在与 之间的概率可以表示为概率密度函数()在,区间上的曲线下方的面积,如下所示:,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,(一)概率密度函数与分布函数,分布函数。连续型随机变量也可以用分布函数()来表示,函数定义为:()也可以写成:分布函数与概率密度函数的关系是:分布函数对的导数为概率密度,即:分布函数具有以下基本性质: () () ; ()()是一个单调非减的函数。,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,(二)连续型随机变量的期望值与方差已知连续型随机变量 的概率密度为(),若 绝对收敛,则称其为的数学期望,记作,方差 D()如下:,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,均匀分布。如果随机变量x 的概率密度函数为:,则称 x 服从区间,上的均匀分布,如图,在区间,上均匀分布的随机变量 x 的数学期望和方差分别为:,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,正态分布。()一般正态分布。如果随机变量 x 的概率密度是:则称 x 服从一般的正态分布,简称正态分布,记作,正态分布的概率密度()具有以下性质:,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,正态分布。()标准正态分布。如果正态分布的期望值为,方差为,则称: 为标准正态分布,记作,标准正态分布的概率密度图形如右所示:,标准正态分布的重要意义:任何一个一般的正态分布,都可以通过线性变换(即标准化变换)转换为标准正态分布。,如果要直接计算一般正态分布曲线下的面积,需要采用积分的方法。可以将服从一般正态分布的变量 x 转化为服从标准正态分布的变量 z,然后利用标准正态分布表得到相应的结果。,第一节,随机变量的概率分布,三、连续型随机变量的概率分布,【例 】设 XN(5,32 ),求以下概率: ()(); ()()。,解:,第二节,概率抽样方法,一、基本概念,(一)总体与样本总体是指研究对象的全体。总体是一个具有确切分布的随机变量,组成总体的每一个单位称为个体、元素或总体单位。样本是指按照一定的抽样原则从总体中抽取一部分单位的集合.抽取样本的目的是通过对样本的观察、研究,达到对总体的认识。(二)概率抽样概率抽样,是指按照随机原则在总体中抽取样本的方法,这样抽取的样本称作随机样本。,是指总体中包含的总体单位数是无限多的。,是指总体单位能够明确确定范围,而且单位的数目是有限可数的。,第二节,概率抽样方法,二、简单随机抽样,简单随机抽样是指对总体不作任何处理,完全按照随机原则,直接从总体全部单位中抽选出样本单位加以观察。,(一)直接抽选法直接抽选法就是直接从调查对象中随机抽选。一般适用于小型总体。(二)抽签法抽签法是给总体的每个单位进行编码,然后从中抽选,直到抽够规定的数量为止。(三)随机数字表法随机数字表法是将,这10个数字,按照随机原则编排成数字表,再利用随机数字表抽选样本单位。 若总体中单位数目为,从中抽取个单位为样本,从排列组合的方式看,采用重复抽样的方法共有 个可能的样本;而采用不重复抽样的方法则有简单随机抽样的特点是:总体中每一个单位被抽中的机会均等,且方便简单,易于掌握。,是指从总体中抽取一个单位后,把这个单位放回总体再抽取第二个单位,直至抽取第 个单位为止。是每次抽取一个单位后,不再将其放回总体, 而在所有未入样的单位中等概率抽样,因此,每个总体单位不可能被重复抽中,故称为不重复抽样。,第二节,概率抽样方法,三、分层抽样,分层抽样又称类型抽样或分类抽样。这种抽样方法是先将总体各单位按某一主要标志分层(组),而后在各层中按随机原则抽取若干个样本单位,由各层的样本单位组成一个样本。若总体中有单位数个,将总体划分为层,第层总体单位数为 个(,),再从各 层中随机抽取样本单位 个,构成样本。优点:第一,能够保证样本的代表性。第二,适当地分配各层样本,可以较大地提高抽样的精度。第三,分层抽样可以按自然的地区或行政系统分层。除了可以估计总体的水平外,还可对每一层的水平进行估计。,第二节,概率抽样方法,四、等距抽样,等距抽样又称机械抽样或系统抽样,它是将总体全部单位按某一标志特征排序,并在该序列中的前个单元中随机抽取第一个样本单元,而后按固定的顺序和相等间隔在总体中抽取若干样本单位,构成样本。优点:组织形式简便,易于实施。等距抽样要计算抽样间隔。间隔 等于总体单位数 除以样本单位数,即等距抽样按样本单位抽选的方法不同,可分为随机起点等距抽样、 半距起点等距抽样和对称等距抽样等。,第二节,概率抽样方法,四、等距抽样,(一)随机起点等距抽样,(二)半距起点等距抽样,(三)对称等距抽样,当抽样间隔确定以后,在第一组(即前个单位)随机抽选第一个样本单位,设顺序号为,则第二个样本单位的顺序号为 ,其余类推,第个样本单位的顺序号为 。,这种抽样方法要求各样本单位都选在各组的中点。各样本单位的顺序号是:第一个样本单位的顺序号是 ,第二个样本单位的顺序号是 , 第 个样本单位的顺序号是,这种抽样方法要求在前个单位中随机抽取第一个样本单位,假设该单位的顺序号为,然后在第二组与第一个样本单位对称的位置抽取第二个样本单位,它的序号为。在第三组与第二组样本单位对 的位置抽取第三个样本单位,它的序号是,以后抽出的样本单位序号依次为,。,第二节,概率抽样方法,五、整群抽样,整群抽样是将总体各单位划分为若干群,然后以群为单位,从总体中随机抽取一部分群,对被抽中群内的所有单位进行全面调查。整群抽样对总体划分群的基本要求:群与群之间不重叠,即总体中的任何一个单位只能属于某个群;全部总体单位毫无遗漏,即总体内的任一单位必属于某个群。总体中各群内所包含的单位数可以相同,也可以不相同。整群抽样划分群的目的:扩大总体“单位”, 抽取的单位不是总体的基本单位,而是总体的群单元。分层抽样划分层的目的:是将数据相近的总体单位划归同一层,从而减少层内单位的差异;分层抽样抽取的单位仍是总体的基本单位。整群抽样的优点:主要是设计和组织抽样比较方便,能节省人力、财力、物力和时间。整群抽样的缺点:相对于简单随机抽样,在相同的调查单位下,用整群抽样估计总体时,其估计精度相对较低。,第二节,概率抽样方法,六、多阶段抽样,当总体很大时,可以把抽样过程分为几个过渡阶段,到最后才具体抽到样本单位,这样的组织形式称为多阶段抽样。多阶段抽样的主要优点是有利于抽样的组织和实施,可以提高抽样估计精度并满足各阶段对调查数据的需求。多阶段抽样还特别适用于大批量生产的产品检验,可以节约人力、物力和财力。,第三节,抽样分布与中心极限定理,一、总体分布,总体分布是指研究对象这一总体的各单位标志变量的分布状况, 即总体各单位数据分布状况的一种概括。,第三节,抽样分布与中心极限定理,二、样本分布,若从总体中抽取一个样本容量为的样本,那么这个 样本中所有单位的数据也是有差异的,并且形成一个分布,称之为样本分布。由于样本是从总体中抽取的,其中就包括总体的一些信息,所以,样本分布也称为经验分布。随机抽取的样本,一方面要受总体分布的制约,受总体分布的影响,一般应与总体分布相近似。另一方面,由于样本的抽取是随机的,样本分布不可能与总体分布完全一致,当抽取的单位数即样本容量比较小时,这种差别会更大。样本容量如果增大,样本的分布就会逐渐接近总体分布。,第三节,抽样分布与中心极限定理,三、抽样分布,为了用样本统计量估计总体指标,我们需要研究样本指标围绕总体指标变动的规律性,研究样本统计量的分布,即抽样分布。所谓抽样分布,是指抽取的总体单位数即样本容量一定时,从总体中按随机抽样的原则,所有可能抽取的样本的统计量的分布,也称为样本统计量的概率分布。与样本分布是经验分布不同,抽样分布是理论分布。如果总体单位数为,抽取样本的容量为,采用不重复抽样的方式,就有 (不考虑顺序)或 (考虑顺序)个可能的样本,每一个样本都可以计算一个样本的均值 、样本比例 和样本方差 ,这 个 ,或 所形成的分布就是抽样分布。,第三节,抽样分布与中心极限定理,四、中心极限定理,中心极限定理证明了随着样本容量 的不断增大,无论原来的总体 是否是正态分布,其样本均值将趋向于正态分布。实际应用中,究竟样本容量多大才能使样本均值趋向于正态分布?这一方面取决于样本总体分布的形状和偏离正态分布的程度,另一方面取决于样本统计量的性质。大量的实践和模拟证明:随着的增大,样本均值趋向于正态的速度是相当快的,当 时,均值就可以近似地服从正态分布。,第四节,常用的抽样分布,一、样本均值x 的抽样分布,(一)样本均值x 抽样分布形式若原总体分布是正态分布,则不论样本容量大小,样本均值x 的抽样分布都服从正态分布。 若原总体分布是非正态分布,当从总体中抽取的是一个大样本, 即一般认为 时,由中心极限定理可知,其样本均值x的抽样分布 也近似服从正态分布。当从总体中抽取的是小样本,则样本均值x的抽样分布不一定近似正态分布,不能按正态分布去推断总体的均值。(二)样本均值x分布的主要数量特征1. 无论是 重复抽样还是不重复抽样,样本均值的x 数学期望始终等于总体均值,即样本均值x 的抽样分布的方差与抽样的方式有关:第一,在重复抽样的条件下,样本均值x 的抽样分布的方差为总体方差的/,即第二,若为不重复抽样,则 ,其中 称为有限总体不重复抽样的修正系数。,第四节,常用的抽样分布,二、样本比例p 的抽样分布,样本比例是在个样本单位中具有某种特征的单位所占的比例:,其一,若采用重复抽样,其数学期望和方差分别为:的抽样分布为:其二,若采用不重复抽样,其数学期望和方差分别为:的抽样分布为:,第五节,几个重要的小样本抽样分布,一、x 2 分布,第五节,几个重要的小样本抽样分布,二、t 分布,第五节,几个重要的小样本抽样分布,二、F 分布,第六章 参数估计,第一节 参数估计的基本问题第二节 一个总体参数的区间估计第三节 两个总体参数的区间估计第四节 样本容量的确定,6,第一节,参数估计的基本问题,一、抽样推断及其基本概念,抽样推断就是从研究对象的全部单元中抽取一部分单元进行调查,从中取得数据,并从这些数据中获取信息,以此来推断全体,包括参数估计与假设检验。所谓参数,从狭义上讲,是指决定某一理论分布的分布函数中一个或若干个数值,如正态分布的期望值 和方差 ,它决定了变量分布的形状、重心位置和离散程度。从广义上讲,参数反映的是总体数据特征和决定有关模型的数值,除数据分布的期望值和方差、总体数据的平均数、比例外,还包括诸如两个变量中回归模型的回归系数、相关模型中的相关系数等。在对总体参数进行估计时,需要利用样本的统计量,这些统计量的具体值是根据样本数据计算得到的。样本的随机性决定了样本统计量是一个随机变量。这些用于估计总体参数的样本统计量即样本函数的名称,称为估计量。抽取一个样本并计算这个样本估计量所得到的数值,称为估计值,它是估计量的具体表现。,第一节,参数估计的基本问题,二、评价估计量的标准,第一,估计量是随机变量,但是性质优良的估计量,即使它的取值会随着样本的随机性而随机波动,在总体上却应集中在参数真值的附近,围绕着参数的实际值而对称地变化,即估计量应不存在系统偏差。第二,估计量数值的随机变化程度小,估计的效果比较好。 第三,当样本容量不断增大时,估计量的值要能稳步地趋向总体参 数的实际值。 第四,样本数据来自于总体数据,它当然包含了总体的信息,这些

    注意事项

    本文(应用统计学(第三版)马立平等ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开