欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    大数据探索性分析版课件第5章.pptx

    • 资源ID:1748757       资源大小:9.36MB        全文页数:261页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据探索性分析版课件第5章.pptx

    第五章 时空数据分析,本章的主要内容,第1节 空间数据基本知识第2节 空间统计介绍第3节 探索性空间数据分析第4节 空间自相关分析第5节 时空扫描统计分析第6节 空间回归分析第7节 空间面板分析第8节 贝叶斯时空模型第9节 空间估算第10节 空间分析的综合应用发病率数据第11节空间分析的综合应用企业创新数据,第1节 空间数据基本知识,空间数据定义(场,对象概念模型),有空间坐标或相对位置的数据通称空间数据。如发病率在县区、乡村的分布;气象台监测的气温、降水;大气污染物分布;土壤重金属在区域各抽样点的数值;全国各省、直辖市、自治区的GDP,区域社会经济调查(抽查或普查数据)等。用来描述来自于现实的目标,将数据统一化,从而来表明空间实体的形状大小以及位置和分布特征。定位是指在已知的坐标系里空间目标都具有唯一的空间位置;定性是指有关空间目标的自然属性,它伴随着目标的地理位置;,空间数据定义(场,对象概念模型),时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。是数字地球的基础信息,数字地球功能的绝大部分将以空间数据为基础。,矢量数据结构和栅格数据结构,矢量数据结构就是通过记录坐标的方式,将抽象的点、线、面等地理实体精确地表达为计算机可以识别、存储和处理的格式。栅栏数据结构是指将地理实体表面划分为均匀分布、大小相等、紧密相邻的网格阵列,每个网格作为一个像元或栅格,由行、列号确定其位置,即用二维坐标中的(x,y)来表示,并包含一个代码,表示该像元的属性类型。,空间数据类型,点数据(piont data)连续数据(continuous data)面数据(areal data),也称格数据(lattice data)线数据,空间数据特性,空间数据的分析还必须研究空间数据的特殊性质。研究表明,空间数据的特殊性质是多方面的,包括空间异质性、空间自相关、可塑性面积单元问题、不确定性等,这些性质直接影响了空间数据分析和建模的方法。,空间依赖性,空间数据最为著名的特征就是Tobler的地理学第一定律所描述的特征:空间上距离相近的地理事物的相似性比距离远的事物相似性大,它所反映的就是空间数据的空间依赖性。其含义可表示在空间的某体位置i处,某个变量的值与其近邻位置j上的观测值有关,可写成如下形式: = ,=1,2,;传统的统计学理论假设观测值是独立的,并独立同分布。因为空间依赖性的存在,在空间分析环境中是一个不能接受的假设,此外关于残差分布同样受到空间依赖性的影响。,空间依赖性,由于空间数据的聚集性及空间相互作用的存在,一个空间位置上的样本数据会依赖于其他位置上的观测值。空间依赖程度是通过空间自相关测度的,可以认为空间自相关就是空间依赖性概念的数学表达,空间自相关的指标多样,可分为两种类型:全局测度和局部测度。全局方法对研究区域的整体给出一个参数或指数,而局部方法提供数据观测点等量的参数或指标。,空间异质性,异质性源于各地方的独特性质,表示空间数据的变化缺少平稳性。空间异质性与空间上行为关系缺乏稳定性有关,这一特征也成为空间非平稳性,意味着功能形式和参数所研究领域的不同个地方是不一样的,但在区域局部,变化是一致的。空间非平稳性是空间数据这一特征的数学表达,对大部分空间数据而言,假设空间过程非平稳和各向异质性能更为真实地反映地理问题的实质。,空间异质性,根据空间异质性的特征,在一般情况下,期望空间上每一个点的地理要素之间有不同的关系,最简单的情况,可将其描述为线性关系: = + i表示在空间位置i=1,2,n处的观测数据 表示和参数 相关联的(1k)阶的解释变量(向量) 是位置i处的因变量 为随机误差项。,空间异质性,比上式复杂的表示方式是因变量和自变量之间的一般函数关系的情况: =f + 不失一般性,讨论现定于线性关系,首先不能期望根据n个观测数据的样本估计出n个参数向量 ,因为没有充分的样本信息并据此对每一个点进行估计,即统计学中的“自由度”问题。关于异质性的模型一般需要借助于贝叶斯方法,有助于空间异质性的完整分析。,可塑性面积问题,数据分析的结果随着面积单元的定义不同而发生变化,就是所谓的可塑性面积单元问题。面积单元对于分析结果的影响来源于两类效应:其一是尺度效应,即当空间单元经过聚合而变化改变其尺度大小时,空间数据的统计分析结果也会相应发生变化,由于从精细空间尺度聚集到大的空间单元的组合途径通常很多不同聚集到大的空间单元的组合途径通常很多,不同聚集方案得到的结果是不同的。其二是划区效应,即在同一粒度或聚合水平上,由于聚合方式的不用或划分方案的不同导致的分析结果的变化。,可塑性面积问题,概而言之,可塑性面积单元问题(MAUP)是由区域的数量、规模、形状对空间数据分析的结果所产生的不确定性影响。,不确定性问题,空间数据的不确定性关心的主要问题是空间数据的质量因为空间数据的质量对于建模分析、表示、结果以及决策的正确性等都有十分重要的影响。空间数据质量的特殊性在于它包括两个方面:属性数据的质量和空间对象的质量,而两者之间又是相互依赖的。由于数据还具有时间坐标,记录的时间误差也隐含在数据集中,因此空间数据包括空间和时间坐标上的属性值,三者之间相互影响。,不确定性分类,至少有4种类型:空间不确定性对象定义的不确定性关系不确定性分区问题,空间不确定性,当对象不具有离散、确定的范围时,就会产生空间的不确定性这种不确定性是因为对象定义的主观性而产生的,可能存在不清晰的边界(例如湿地在哪里精确终止),其影响超出了它们的边界,或者空间对象仅仅是统计上的实体。,对象定义的不确定性,当不能清晰或严格定义对象时,就会导致模糊性的产生,如在治安管理中,管区犯罪发生率为多少时才能定义为高犯罪地域,这些都依赖于一些人为的规定。,关系不确定性,地理要素之间通常具有各种关系,当y被用作x的替代或指示器时,因为x不可用,此时就会产生模糊性,可分为直接指示器或间接指示器两种情况。直接指示器表明现象之间的联系是直接的和相当清晰的,例如土壤的养分水平(y)是作物产量(x)的直接指示器。非直接的指示器趋向于更加模糊和不透明,例如湿地(y)是动物多样性(x)的非直接指示器。,分区问题,区域是为了识别地理现象,分析研究或管理的需要而进行的定义,所以产生了分区问题,例如气候类型区的划分问题,专家对于哪些特征的组合定义一个类型区域的观点并不一致,这些特征如何加权生成一个复核指标,以及确定区域最小规模的阈值是多少,都会影响类型的划分。在GIS中涉及空间数据的获取,表示和分析等系列过程,而在这个过程的各个阶段都会产生不确定性。从来源上看可归结为测量的不确定性,空间数据表示的不确定性和空间数据分析的不确定性,其中分析的不确定性主要是和空间尺度依赖有关的MAUP问题。,分区问题,地理现象刻度的不确定性主要是空间数据和属性数据获取过程中产生的误差,包括对象的物理测量误差、社会经济属性记录误差,数字化数据的误差,以及不同来源数据集整合时的误差。地理现象的表示的不确定性表示与测量之间密切相关,表示绝非仅仅是分析的输入,而且还是分析的结果,主要包括栅栏数据表示的不确定性和矢量数据表示的不确定性。,第2节 空间统计介绍,空间统计由来,应用空间统计分析思想最早可以追溯到150多年前一次重大的公共卫生事件,1854年英国伦敦霍乱大流行。在这次事件中,John Snow博士利用基于地图的空间分析原理,将死亡病例标注在伦敦地图上,同时还将水井的信息也标注在地图上,通过相关分析,最后将污染源锁定在城中心的一个水井的抽水机上。在他的建议下市政府将该抽水机停用,此后霍乱大幅度下降,并得到有效的控制。,空间统计由来,John Snow利用空间分析思想控制疫情这件事具有重要的里程碑意义,它被看成了空间统计分析和流行病学两个学科的共同起源;但是此后相当长的一段时间内由于缺乏刻画数据的空间相关性和异质性的方法,人们在分析空间属性的数据时,往往把所涉及的数据自身空间效应作为噪声或者误差来处理,这种缺乏对空间自相关和异质性的刻画,限制了以地图为基础的空间属性数据在公共卫生领域中应用的深入研究。,空间统计由来,直到1950年Moran首次提出空间自相关测度来研究二维或更高维空间随机分布的现象,1951年南非学者Krige提出了空间统计学萌芽思想,后经法国数学家Matheron完善,于1963年和1967年提出了地统计学和克里金技术。1973年, Cliff和Ord发表了空间自相关(Spatial Autocorrelation)的分析方法,1981年出版了Spatial Process:Model and Application专著,形成了空间统计理论体系,以及GetisG和Lisa提出的空间异质性的局部统计使空间统计理论日趋成熟。,空间统计由来,近年来随着空间分析技术以及空间分析软件(如GIS、Geoda、SaTScan、Winbugs等)的迅速发展,与疾病分布有关的空间统计分析也得以较快发展。,空间统计与经典统计区别,空间统计具有明显的多学科交叉特征,其显著特点是思想多源、方法多样、技术复杂,并随着相关学科如计算机软硬件技术的发展而发展。空间统计分析是以地理实体为研究对象,空间统计模型为工具,以地理实体空间相关性和空间变异性为出发点,来分析地理对象空间格局、空间关系、时空变化规律,进而揭示其成因的一门新科学。,从研究变量类型来看,首先从研究变量类型来看,经典统计学研究的是纯随机变量,该随机变量的取值遵循某种概率分布变化而空间统计学研究的是区域化变量,该区域化变量根据其在一个区域内的空间位置不同而取不同的值,即随机变量是与位置有关的随机函数。因此,空间统计学研究的变量具有随机性和结构性特点。,从假设前提来看,在经典统计学中,待分析的变量一般应具有独立性。而空间统计学的区域化变量是在不同空间位置上的抽样,因而邻近的样本之间通常不独立,存在某种程度的空间相关性。,从研究样本来看,经典统计学以频率分布图为基础,研究样本的各种数字特征(如均值、方差),并对总体进行推断。而空间统计学主要考虑变量空间分布理论和估算方法。,从研究结果来看,经典统计学与GIS结合不紧密,而空间统计学能与GIS有效结合,很容易实现空间可视化。此外,试验次数不同,经典统计学所研究的变量理论上可以无限次重复或进行大量重复观测试验。而空间统计学所研究的区域化变量一旦在某一空间位置上取得样品后,就不可能再在同一位置取得该样品,即区域化变量取值只有一次。当然空间统计并不是抛弃所有的经典统计学理论,而是对这些理论加以完善,以便更适用于空间数据统计分析。,空间统计学应用综述,目前空间统计学技术主要基于3S技术,即GIS(Geographic Information System)、RS(Remote Sensing )、GPS(Global Positioning System)。3S技术就好比人的两只眼睛和一个大脑,一只眼睛GPS进行定位,另外一只眼睛RS采集周边环境信息,GIS对采集过来的数据进行统一存储、加工与处理。GIS具有功能完善空间分析模块,可以进行疾病的探索性和证实性分析,进行疾病或传播媒介与潜在地理、气候、社会、经济等因素之间的关联分析。,空间统计学应用综述,例如通过环境因素与疾病的叠加分析、空间相关分析和空间回归分析、疾病的遥感模型、传染病模型等来探索和描述疾病的传播规律和寻求病因,评估潜在的环境和特定时空交互行为对疾病发生的影响这一方面对决策人员制定科学的防治策略、确定防范重点、分配有限医疗资源等具有重要的指导意义另一方面,也有助于卫生领域的研究人员设计合理的科学实验进行传染病的病毒学和分子流行病学研究,加速彻底战胜传染病的进程。,疾病的空间插值分析,在疾病预防研究中,疾病空间样点资料是有限的,如何利用有限的空间样点资料去掌握整个区域的全局流行特征,突破人为行政区划的限制,从一种整体宏观全局角度来把握疾病和健康的空间分布格局,从而为公共卫生资源的配置和防控策略的制定提供依据。空间插值数据是根据相邻样点的相似原理来生成表面,即用已知的样点的值生成表面来预测整个研究区域内每个位置的值,并评估预测表面的误差和变异性。,疾病的空间插值分析,克里金插值又称之为地统计学,以空间自相关为前提,区域化变量理论为基础,以变异函数为主要工具的一门新学科。其实质是利用区域化变量的原始数据和变异函数的结构特点,对未采样点的区域化变量的取值进行线性无偏、最优估计。半变异函数主要块金值、变程、基台值、偏基台值几部分组成。,半变异函数图详解,块金基台比,块金基台比C0C0+C1,其大小反映空间自相关部分引起疾病空间异质性程度的大小。如果块金基台比较大,说明随机部分引起的疾病空间异质性起主要作用,空间自相关弱。反之,块金基台比较小,说明空间自相关部分引起的疾病空间异质程度起主要作用,空间自相关性强。,疾病的空间插值分析,描述污染物空间分布是风险评估的一个重要组成部分Cattle等人采用指示克里金技术基于已知抽样点污染物浓度去估计非抽样点污染物浓度。Asmarian等人采用泊松克里金插值对2003-2007年336个县食道癌发病数据进行分析,得出了Ardebil、 Mazandaran 、 Kordestan三省与其他省相比有较高的风险。Adhikar等人采用指标和概率克里格方法描述印度德里市Najafgarh街区地下水铜、铁、锰污染情况。,疾病空间聚集性研究,疾病的聚集性分析目的在于研究潜在危险因素的时空聚集性,从整体上检验疾病的空间分布是随机还是聚集?如果是聚集分布,进一步回答:聚集在什么地方?疾病聚集程度高低及与周边地区关系如何?聚集在多大的空间尺度才有效?这些与地点相关的聚集因素可以是未知的感染因子、地方污染物等。,疾病空间聚集性研究,Xiao等人采用局部GetisG热点探测发现了中国大陆2008-2011年在县区水平上手足口病空间聚集性及随时间的变化趋势。于石成等利用时空扫描技术对全国重症手足口病例进行了时空聚集性分析,发现重症病例聚集区域,为进一步研究重症病例成因奠定了基础。Wang等采用Satscan时空扫描工具探测北京2008-2012年手足口病时空聚集模式。同时在其他传染病分析中也得到广泛应用,如细菌性痢疾、丙型肝炎、出血热病 、HFRS 、H7N9等疾病分析。,疾病空间聚集性研究,同样在癌症研究中,研究人员使用空间聚集分析确定地理区域的高危人群,然后筛选人群疾病可以改善癌症控制。,疾病时空预警分析,通过时空模型分析不同时期疾病或媒介的空间动态变化,了解疾病随时间的变化规律,对疾病未来的发展趋势做出分析、预测和评估,从而在疾病的预警系统中发挥作用。在这些时空模型中,Kulldorff于1998年提出了时空扫描统计量,以及在2001年提出的前瞻性时空重排扫描统计量,在传染病暴发预警中具有较好的应用前景。,疾病时空预警分析,前瞻性时空重排扫描统计量以动态变化的扫描窗口对不同的时间和区域进行扫描,可以有效地对未知的时空聚集性进行探索性分析,达到早期预警的目的。该方法最大的优势在于,由于采用了重排算法,该模型在建模过程中不需要使用人口数据。而基于Poisson分布的时空扫描统计量,在计算过程中需要各区域的人口数据,但确切的人口数据常常很难获得。,疾病时空预警分析,Mostashari等利用死禽数据进行空间统计扫描分析对西尼罗病毒暴发进行早期预警。Mugglin等采用贝叶斯时空模型通过对苏格兰流行性感冒病例资料进行分析和预测,可以让医院在应诊能力准备上做得更好。,疾病制图和病因探索,疾病制图是空间统计学的基本功能其目的是将疾病的危险的空间变异或时空变异在地图上呈现出来,为进一步病因学研究或其他研究提供线索。地理环境相关性研究是研究与环境有关的地理变量(如空气、水体、土壤等)或生活方式等因素与健康之间的相互关系,能够环境危险因素的研究提供必要的信息。自然与社会环境、营养、基因、行为、病媒生物等是许多疾病的致病因子,通常具有空间分布。,疾病制图和病因探索,疾病分布如同自然景观的概念一样,不同疾病的分布结构来自于不同的病因分布结构,这种结构的变化同样影响着疾病的发生、传播和消长的变化。通过分析这些要素和疾病空间分布之间的关系,可以探测是否存在威胁健康的环境危险因素,这些危险因素是否存在交互作用,地理探测器,“地理探测器”(GeoDetector)方法基于空间方差分析来分析来探测环境风险因子。主要包括四个方面的功能:风险探测器可以指示风险区域;因子探测器可以定量评价不同的环境因子的风险程度;生态探测器可以分析不同的环境因子的影响是否有显著差异;交互探测器可以分析环境因子是独立作用还是多种因子交互作用的结果。自从地理探测器问世以来,在公共卫生领域得到了广泛的应用。,地理探测器,Wang等利用了地理探测器发现了引起山西省和顺县神经管畸形的环境致病因子以及致病因子之间的相互关系。Wu等(2004)等人通过空间探索分析为获得导致出生缺陷的环境致病因子,为进一步分析致病因子奠定了基础。HU等利用地理加权回归分析了气象因子对我国手足口病影响在地理空间上的异质性。Deng等采用空间面板模型分析广东气象因素对手足口病的影响。层次贝叶斯时空模型方法在疾病制图及分析疾病的影响因素方面取得较好的效果,获得了疾病危险的空间及时空变异的信息。,第3节 空间模型应用实例,探索性空间数据分析,探索性空间数据分析指基于数据的空间属性,利用空间统计学原理和图表相结合,对空间数据的性质进行探索性分析。ESDA提供直方图、QQ图、变异云图、趋势图、地区分布图、泰森多边型(voroni map),对数据的离群值、正态性、趋势性及变异性进行分析。通过地区分布图和三维趋势分析,可直观描述疾病分布的趋势性及不均匀性。,疾病地区分布图,疾病地区分布图是一种常用的空间数据可视化方法。将疾病数据根据区域进行统计,使每个区域得到一个描述疾病发生的聚合信息;然后根据该信息通过不同的填充颜色或图案对各个地区进行渲染,最后得到的图即为疾病地区分布图。疾病地区分布图用不同的颜色或图案把疾病高发区、低发区直观描述出来,揭示空间分布趋势,为疾病进一步研究提供线索。,趋势分析,趋势分析生成数据的三维趋势图,可识别数据的全局趋势。x轴、y轴分别代表疾病采样点对应的经度和纬度,z轴表示采样点的疾病指标。三维趋势图中与y轴对应的线条表示在南北方向上趋势值的变化,与x轴对应的线条表示在东西方向上趋势值的变化。三维趋势图可直观展示疾病的空间分布趋势。,三维趋势图,第4节 空间自相关分析,空间自相关分析,空间自相关,指一个区域单位上的某种属性值(如发病率)与邻近区域单位上的同一属性值间的相关程度,其基本度量指标是空间自相关系数,用空间自相关系数来检验区域单位的某一属性值是否高高相邻,低低相邻或者高低间错分布,即有无聚集性。,空间自相关分为三种情况,一种是正相关,指邻近区域有相同或相似的属性值。如果某变量属性值在空间分布上呈现出高的地方周围也高,低的地方周围也低,称为空间正相关,表明此变量属性值具有空间扩散特性;另一种是负相关,指邻近区域有不同的属性值。如果在空间分布上呈现出高的地方周围低,低的地方周围高,则称为空间负相关,表明此变量属性值具有空间极化特性;第三种是无相关,指变量属性值在空间分布上呈现出随机性,表明空间自相关不明显,是一种随机分布的现象。,I0,正相关,,,I0,负相关,空间自相关,空间自相关分为全域型空间自相关和局域型空间自相关,常用分析方法有:Morans I、Gearys C、Getis、Moran散点图以及空间自相关系数图。全域型空间自相关从整个研究范围内分析疾病空间分布有无聚集性,但不能确切地指出聚集在哪些地方;而局域型空间自相关在特定局部区域内分析疾病空间分布有无聚集性,其分析结果可解释和探测存在空间聚集性的“热点”或“冷点”区域。,空间自相关,应用空间自相关研究疾病空间异质性时,需回答三个问题:一是疾病空间分布有无聚集性?二是疾病空间分布若有聚集性,其聚集类型是什么,是高值聚集还是低值聚集?三是疾病聚集区域在什么位置,其发病热点或冷点在什么区域?全域型 Morans I, Gearys C 系数可回答第一个问题;全域型 Getis系数回答第二个问题;局域型Morans 、 Gearys C、Getis回答第三个问题。,全域 Morans I系数,Morans I系数是应用最广的衡量空间自相关性的指标,可用来进行全域或局域空间自相关分析。全域型Morans I系数从总体上反映整个研究区域有无聚集性,其公式如下:= = = ( )( ) ( = = ) = ( ) 为所研究的疾病空间区域数; 为区域内的疾病发生率, 为区域内的疾病发生率, 为所研究区域的疾病平均发生率; 为空间权重矩阵, = ,当区域和相邻接 ,其他,全域 Morans I系数,在无效假设下,研究对象无空间自相关性,此时Morans I的期望值: = () Morans I的方差有两种假设:一是正态分布假设;另一则是随机分布假设。在随机分布假设下,由于不知道x的理论分布形式,故这种假设常用于疾病发生率的检验。在随机假设下,Morans I的方差为: = + + + ()()() () ,全域 Morans I系数,其中, = = = = = = ( + ) = = ( + ) = = = = ( ) / = ( ) / ,全域 Morans I系数,随机分布假设下Morans I的Z-score得分检验为: = () () 。当 .时,.,拒绝无效假设,认为总体 ,存在空间自相关。Morans I介于-1至1之间。取值为正,表示 和 是同向变化,数据呈正相关,取值越接近1,表示正向空间自相关性越强,疾病呈聚集分布;Morans I取值为负,表示 和 是反向变化,数据呈负相关,取值越接近-1,则负向空间自相关性越强,疾病呈均匀分布;Morans I取值接近于0,则呈随机分布,不具有自相关性。,局域Morans I系数,全域Morans I系数从总体上反映了整个研究区域有无聚集性,但不能反映聚集区域的确切位置及聚集类型状态。在研究疾病空间自相关时,可能出现以下两种情况:第一,几个小的区域中自相关有统计学意义,使得在总的区域上有统计学意义;第二,全域空间自相关无统计学意义,但在某些小区域有统计学意义。因此当全域空间自相关指标不能提供全局空间关联的证据时,就更需要采用局域指标来发现可能的局部聚集区。,局域Morans I系数,局域Morans I系数提供了每个空间单元自相关性的判定,它满足以下两个条件:1每个观察值的 LISA(local indicators of spatial autocorrelation)是反映它与空间相邻近观察值之间的空间聚集性指标;2所有观察值的LISA值相加与空间相关性中的全域指标成正比。,局域Morans I系数,第一个条件说明LISA是一个局域空间自相关的测度。第二个条件意味着可把全域空间自相关系数分解成各个区域上的空间自相关性。也就是说,局域型空间自相关指标(Moran LISA)可以和全域统计量Morans I相联系,估计局域统计量对全域统计量的贡献大小。,局域Morans I系数,对于第i个区域单元,Morans I的LISA定义如下: = ( ) , ( ) 其中, = = ( ) , = = , 且在随机分布假设下, 的期望值和方差分别为:,局域Morans I系数,其中: 为空间权重矩阵,确定方法如下:,局域Morans I系数,为所研究的疾病空间区域数; 为区域内的疾病发生率, 为区域内的疾病发生率, 为所研究区域的疾病平均发生率。同样利用Z检验对Moran LISA统计量进行假设检验:当 .时,.,拒绝无效假设,认为 oran , 存在局域型空间自相关。,Gearys系数,Gearys系数是另一种常用的、分析全域空间自相关性的指标,其定义为:各符号意义同全域Morans I系数式。Gearys C系数介于02之间,越接近0,表示观察值的正向空间自相关越强,疾病空间聚集性越高;越接近2,负相关越强,疾病空间均匀分布;越接近于1,呈随机分布,不具有空间自相关性。,Gearys系数,与Morans I系数类似,可计算Gearys C系数的期望值和方差,从而用Z检验进行总体Gearys C系数是否为1的假设检验,推断疾病空间分布是否具有空间自相关性,即是否有聚集性。,Getis系数,无论是Morans I系数,还是Gearys C系数,都只能揭示疾病空间分布有无聚集性及聚集性强度,其缺点在于无法揭示疾病空间分布聚集性类型,即是高值聚集还是低值聚集性。Getis系数弥补了Morans I系数和Gearys C系数的不足,从全域和局域两方面分析疾病空间分布是否为高值聚集还是低值聚集。,全域Getis系数,全域Getis系数,又称G统计量。其计算公式如下:其中, 和 分别为某变量在区域,的属性值; 为给定距离阈值下的空间权重矩阵,对区域数据而言,若与相邻, 该 为1,否则为0。,全域Getis系数,G统计量的期望值和方差分别为:其中,全域Getis系数,全域Getis系数,计算统计量G后,需利用Z检验对其进行统计推断:当,且.时,拒绝无效假设,认为,研究区域内存在高值聚集区;当,且.时,拒绝无效假设,认为,研究区域内存在低值聚集区。,区域Getis系数( ),全域Morans I和Gearys C系数能说明在整个研究范围内疾病有无聚集性分布,但是不能确切指出聚集在哪些区域,同时也不能揭示疾病是什么状态的聚集,即是高值聚集还是低值聚集。局域 Moran LISA 统计量在全域Morans I的基础上进一步回答疾病聚集在哪些区域,但仍不能回答疾病是什么状态的聚集性。全域Getis空间自相关弥补了全域Morans I的不足;Getis系数大于零且有统计学意义,说明疾病在研究区域内呈高值聚集;反之,疾病在区域内的分布为低值聚集。,区域Getis系数( ),然而,全域 Getis系数与全域Morans I一样,是从全局角度说明疾病空间分布有无聚集性以及是什么状态的聚集性,不能确切说明疾病具体聚集在哪些空间区域内。局域Getis系数克服了这种弊端。若某区域单位的局域 Getis系数为正值且有统计学意义,说明此区域单位与周边区域单位在某属性值(如发病率)上都是高值,呈现高值簇聚集区,为发病“热点”区域;反之,则呈低值簇聚集区,为发病“冷点”区域。,区域Getis系数( ),区域 表达式如下:各符号含义与全域Getis系数式相同。与全域Getis系数类似,可计算局域 的期望值和方差,从而用Z 检验进行总体 是否为 0 的假设检验,推断疾病空间分布在区域与邻近区域是否存在有统计学意义的高值聚集区或低值聚集区。,Moran 散点图,以(, )为坐标点的散点图称为 Moran散点图。 是相邻区域单元观察值的空间加权平均值,又称“空间滞后”向量;Z是所有观察值与均值之间的离差组成的向量。Moran散点图常来研究局部的空间不稳性,它对空间滞后因子 和Z数据对进行了可视化的二维图示。全局 Moran系数,可以看作是 对于Z的线性回归系数。Moran散点图的四个象限分别对应于区域单元与其邻居之间四种类型的空间关联模式。,Moran 散点图,Moran 散点图,第一象限代表了高观测值的区域单元被同是高值的区域所包围的空间关联模式,即具有空间正相关,呈现为 High-High关联;第二象限代表了低观测值的区域单元被高值的区域所包围的空间关联模式,即具有空间负相关,呈现为Low-High关联;第三象限代表了低观测值的区域单元被同是低值的区域所包围的空间关联模式,即具有空间正相关,呈现为Low-Low关联;第四象限代表了高观测值的区域单元被低值的区域所包围的空间关联模式,即具有空间负相关,呈现为High-Low关联。,Moran 散点图,据此,可进一步认识疾病空间分布规律。将 Moran 散点图与LISA聚集性检验水平相结合,可得到所谓的“Moran聚集性检验水平图”,图中标识出对应于Moran散点图不同象限,并且LISA有统计学意义的相应区域。,第5节 时空扫描统计分析,时空扫描统计,探讨疾病空间聚集性的方法有简单的统计描述和复杂的聚集性检验。聚集性检验可分为一般聚集性检验(general cluster tests)和焦点聚集性检验(focused cluster tests) 。一般聚集性检验细分为全局聚集性检验 (global clustering tests)和聚集性探测检验(cluster detection tests)。焦点聚集性检验的代表性方法有局域空间自相关 , ,用于检验某确定点周围是否有局部聚集性存在,但并不能对聚集性的大小范围进行确定。,时空扫描统计,全局聚集性检验的代表性方法有全局空间自相关Morans I、Getiss G、k 个最近邻方法(k nearest neighbor method),用于检验整个研究区域内是否存在聚集性,而不对聚集性的位置进行准确定位。无论是焦点聚集性检验还是全局聚集性检验,都只能单方面地说明某研究区域存在聚集性或聚集区的位置,而不能完整地对聚集区的位置和空间范围进行精确定位。以空间扫描统计(spatial scan statistics)为代表的聚集性探测检验解决了这一难题,在无任何先验假设的情况下,对聚集性的位置和空间范围进行准确定位。,时空扫描统计,扫描统计(scan statistics)包括空间扫描统计、时间扫描统计、时空扫描统计三类。空间扫描统计作为扫描统计方法之一,其目的是探测发病率异常升高的空间区域,并检验这种升高是否由随机变异造成的。空间扫描统计不仅可检验疾病在某研究区域是否存在聚集性,还可以对聚集区的大小和位置进行定位,为疾病防治提供科学依据。,基本原理,其无效假设 为:疾病空间分布是完全随机的;备择假设 为:跟扫描窗口外相比,疾病在窗口内的发病率增加。空间扫描统计采用移动窗口法(moving windows),在研究区域内建立活动圆形窗口对疾病发生率进行扫描统计。窗口的大小和位置处于动态改变之中,以避免人为选定研究研究区域范围和圆心位置造成的选择偏倚。窗口的圆心在地图中沿格网线或地理单位中心变动,扫描半径按人口辖区范围划分,具体从0至总人口一定比例设定值之间变动(一般为总人口的50%)。,基本原理,对每次变动,将计算窗口内与窗口外区域之间的疾病发生率差异,采用对数似然比(log likelihood ratio, LLR)进行检验。寻找所有位置所有大小窗口中的最大对数似然比值,此处为最有可能存在聚集性的区域,也就是最不可能由随机变异造成的。最终选取LLR值最大的窗口为高发病聚集窗口,确定此窗口所包括的地区,并计算该地区的相对危险度(RR)及检验有无统计学意义。LLR的概率值(P)通过蒙特卡罗随机化法(Monte Carlo randomization method)得到。,概率模型,空间扫描统计的概率模型有:泊松分布模型(poisson model)、二项分布模型(bernoulli model)、指数模型(exponential model)、等级模型(ordinal model)、正态分布模型(normal model)。各概率模型主要区别在于概率函数不同以及对数据类型要求不同。二项分布模型适合二分类资料、指数概率模型适合生存资料、正态分布模型适合连续性资料、等级模型适合等级资料、泊松分布模型适合频数资料。泊松分布模型需要各研究区域的发病数据、人口数据以及地理数据,实际中常被应用。,对数似然比检验,鉴于泊松分布模型应用较多,仅介绍泊松分布模型的对数似然比检验,其他模型的对数似然比函数可参考文献。对每一位置和大小的空间窗口,其无效假设为:疾病空间分布是完全随机的;备择假设为:跟窗口外相比,窗口内的发病率增加。,对数似然比检验,其中c为窗口内的发病数,C-c为窗口外的发病数;Ec为基于无效假设由协变量校正过的窗口内预期发病数,C-Ec为窗口外的预期发病数;I()为指数函数,当窗口内实际发病数高于预期发病数时,I()=1,反之I()=0。对每一窗口,都计算对数似然比值(LLR),然后寻找所有位置所有大小窗口中的最大对数似然比值(LLR),此处为最有可能存在聚集性的区域,也就是最不可能由随机变异造成的。LLR值的概率P值由蒙特卡罗随机化法(Monte Carlo randomization method)计算得到。,对数似然比检验,基于无效假设,根据病例数和人口数用蒙特卡罗法随机产生W(一般为 999)个模拟数据集。对每个模拟数据集采用跟真实数据集相同的方法计算其最大对数似然比值(LLR)。然后将真实数据集的最大LLR跟W个模拟数据集的最大LLR进行由大到小排序,若真实数据集的最大LLR排在第R位,则= + 。例如,W为999,若真实数据集的最大LLR的排位秩次为1,则= + =.。,第6节 空间回归分析,空间回归分析,Unwin(2003)认为,至少存在4种相互联系的空间分析概念,分别是空间数据操作(spatial data manipulation)、空间数据分析(spatial data analysis)、空间统计分析(spatial statistical analysis)、空间建模(spatial modeling)。在实际应用中,这四种分析所使用的方法很难进行严格界定,大部分地理研究基本都包含了这四个方面。,空间数据,空间数据与一般的属性数据相比,具有其特有的性质,如空间相关性、空间异质性、由尺度变化等引起的MAUP效应等。空间数据一般分为四种主要类型,分别是:点数据、线数据、面数据、空间连续数据。,与经典回归的比较,在实际问题中,常常需要考虑多个变量。变量间可能有完全确定的关系,如电压和电流;但也可能有一定关系,但不能精确确定。为了研究这类变量间的关系,需要通过大量试验或观测获得数据,用统计方法寻找它们之间的关系。其中一种统计方法就是回归分析。回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,分为回归和多重回归分析;按照自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。,与经典回归的比较,在实际应用中,我们经常遇到的问题是希望用一组变量X1,X2,Xp解释因变量Y,建立Y与X1,X2,Xp之间的多元回归方程是最常用的方法。设Y与X1,X2,Xp间有线性关系Y=X+ 其中,Y为因变量,是n阶向量;X为解释变量,是np阶矩阵;为系数向量,是p阶向量;为n阶向量,且N(0, 2 I)。,与经典回归的比较,求的估计值 ,就是求使误差即最小二乘函数Q =(YX)(YX)达到最小的值。可以证明,系数向量的最小二乘估计为 = (XX) 1 多元线性回归中无法直观的用图形判断Y与X之间是否有线性关系,因此需要进行显著性检验,一般包括回归系数的显著性检验(检验某个变量系数 是否为0)和回归方程的显著性检验(检验该组数据是否适用于线性方程做回归)。,与经典回归的比较,在多元线性回归模型中假设了残差相互独立,但在空间模式中,残差是存在空间依赖性的;当的方差不是对角矩阵时,需要用广义最小二乘估计,但在实际中,很难找到的方差。,空间回归分析,空间相关性和异质性在地理学中,邻近的地理实体往往比距离遥远的实体有更大的相似性(托布勒地理学第一定律)。同时,大千世界空间分布并不是均匀的,气候不同,资源不同,环境不同,诸如此类,造成了生态学过程和格局在空间分布上的不均匀性和复杂性,称为空间异质性。大多数统计学方法都设定了观测值相互独立的前提,但在空间统计中,由于空间相关性,许多经典统计推断方法用于空间统计是不合适的,结果是有偏或非最优甚至是错误的。,空间相关性和异质性,而空间回归模型抓住空间自相关,将空间依赖看作为一种信息来源,不仅没有受到影响,反而加以利用。空间异质性

    注意事项

    本文(大数据探索性分析版课件第5章.pptx)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开