《典型相关》课件.ppt
《《典型相关》课件.ppt》由会员分享,可在线阅读,更多相关《《典型相关》课件.ppt(135页珍藏版)》请在三一办公上搜索。
1、Canonical Correlation Analysis,典型相关分析,引言,典型相关分析是研究两组变量之间相关关系的一种统计方法。在科学研究中常需要分析一组个指标与另一组个指标的相关关系,简单的方法两两指标间分别统计简单相关关系,得到个相关系数,用这些相关系数反映两组变量间的关系。但这样做即繁琐又抓不住要领。更有效的方法是类似主成分分析,考虑每组变量的线性组合,从这两族线性组合中找出最相关的组合变量,通过少数几个综合变量来反映两组变量间的相关关系,这样就可以抓住它们的主要关系,而且简明。这就是典型相关分析的基本思想。,1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X
2、1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型(则)相关系数,何时采用典型相关分析,典型相关分析示意图,X1,Y1,Y2,Y3,Y4,Y5,X2,X3,X4,X5,X6,X,Y,U1U2U3U4U5,V1V2V3V4V5,CanR1CanR2CanR3CanR4CanR5,典型相关和典型相关变量的定义,典型相关变量的一般求法,第一对典型相关变量的求法,典型相关变量的性质,例子(数据tv.txt),业内人士和观众对于一些电视节目的观点有什么样的关系呢?该数据是不同的人群对30个电视节目所作的平均评分。观众评分来自低学历(led)、高学
3、历(hed)和网络(net)调查三种,它们形成第一组变量;而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。人们对这样两组变量之间的关系感到兴趣。,计算结果,下面一个表给出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累积百分比(Cum.Pct)和典型相关系数(Canon Cor)及其平方(Sq.Cor)。看来,头两对典型变量(V,W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。,计算结果,对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征
4、根的三个典型变量V1、V2和V3的系数,即典型系数(canonical coefficient)。这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。,可以看出,头一个典型变量V1相应于前面第一个(也是最重要的)特征值,主要代表高学历变量hed;而相应于前面第二个(次要的)特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net,但高学历变量在这里
5、起负面作用。,计算结果,类似地,也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数:。,例子结论,从这两个表中可以看出,V1主要和变量hed相关,而V2主要和led及net相关;W1主要和变量arti及man相关,而W2主要和com相关;这和它们的典型系数是一致的。由于V1和W1最相关,这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关;而由于V2和W2也相关,这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相
6、关,但远远不如V1和W1的相关那么显著(根据特征值的贡献率)。,(二)典型相关系数计算实例,求X,Y变量组的相关阵R=,1985年中国28 省市城市男生(1922岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,Y5。现欲研究这两组变量之间的相关性。,简单相关系数矩阵,Corr(X)R11,Corr(Y)R22,Corr(Y,X)R21,Corr(X,Y)R12,简单相关系数公式符号,Corr(X)R11,Corr(Y)R22,Corr
7、(Y,X)R21,Corr(X,Y)R12,(一)求解典型相关系数的步骤,求X,Y变量组的相关阵R=求矩阵A、B 可以证明A、B有相同的非零特征根3.求A或B的i(相关平方)与CanRi,i1,m4.求A、B关于i的特征根向量即变量系数,2.求矩阵A、B,A矩阵(pp),B矩阵(qq),3.求矩阵A、B的(相关系数的平方),A、B有相同的非零特征值,B矩阵求(典型相关系数的平方),5个与典型相关系数,4.求A、B关于i的变量系数(求解第1典型变量系数),求解第2典型变量系数,求解第5典型变量系数,5组(标准化)典型变量系数(X),5组(标准化)典型变量系数(X),由标准化典型变量系数获得原变量
8、X对应的粗典型变量系数,粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。,5组(标准化)典型变量系数(Y),(三)典型相关系数的特点,两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1max(|Corr(Xi,Yj)|)或CanR1max(|Corr(X,Yj)|)max(|Corr(Xi,Y)|),(四)校正典型相关系数(Adjusted Canonical Correlation),为了使结果更加明了,增加大值或小值,减少之间大小的值,将
9、典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。,(五)典型相关系数的标准误,(六)E1H的特征值(见典型判别、MANOVA,E误差项,H组间变异),Eigenvalues of Inv(E)*H=CanRsq/(1-CanRsq),Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405 0.8951 3 0.3533 0.2097 0.0713 0.9665 4 0.143
10、6 0.1212 0.0290 0.9955 5 0.0225 0.0045 1.0000,(七)典型相关系数的假设检验,全部总体典型相关系数均为0部分总体典型相关系数为0,1.全部总体典型相关系数为0,F近似检验(SAS结果),Test of H0:The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr F1 0.06798466 2.24 30 70 0.00302 0.28840509 1.
11、38 20 60.649 0.16863 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920,F近似检验(计算公式),多变量统计量与F近似检验,Multivariate Statistics and F ApproximationsStatistic Value F Value Num DF Den DF Pr FWilks Lambda 0.06798 2.24 30 70 0.0030Pillais Trace 1.71651 1.83 30 105 0.013
12、3Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roys Greatest Root 3.24221 11.35 6 21.0001 NOTE:F Statistic for Roys Greatest Root is an upper boun.,多变量统计量的计算公式,2.部分总体典型相关系数为0仅对较小的典型相关作检验,卡方近似检验,部分总体F近似检验(计算公式),与原变量间的相关程度和典型变量系数有关。,典型变量与原变量的亲疏关系,原变量与自已的典则变量 原变量与对方的典则变量之间的相关系数。,三、典型结构分析,原变量在典型变
13、量上的负荷(即原变量与典型变量间的相关系数),三、典型结构分析,负荷矩阵的表达,左上角的矩阵 X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5 X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5X6,右下角的矩阵 Y1=-0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5 Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0.2240V5.Y5,各典型变量的意义解释,等于该变量与自己这方典则变量的相关系数与典则相关系数的乘积,原变量与对方
14、典型变量的相关,原变量与对方典型变量的相关,右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量来预测原变量(回归)提供依据,四、典型变量的冗余分析(Canonical Redundancy Analysis),该方法由Stewart and Love 1968;Cooley and Lohnes 1971;van den Wollenberg 1977)发展。以原变量与典型变量间相关为基础。通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。,X原变量的相关被典型变量解释的百分比,Y原变量的相关被典型变量解
15、释的百分比,U1,U2,U5并没有完全概括X变量的全部信息(97.24),而V1,V2,V5 却概括了Y变量的全部信息(100);V1,V2,V5中仅蕴含X变量信息的48.44%,而U1,U2,U5中仅蕴含Y变量信息的43.96%。,实例冗余分析的解释,五、基于典型变量的回归,SAS输出结果,Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 3 4 5 X1 0.6260 0.6296 0.6668 0.6
16、696 0.6697 X2 0.5674 0.5674 0.6124 0.6126 0.6139 X3 0.6697 0.6846 0.6852 0.6960 0.6960X4 0.3701 0.4253 0.5010 0.5138 0.5142 X5 0.0141 0.1684 0.1687 0.1758 0.1878 X6 0.0452 0.1511 0.1515 0.2217 0.2251 Squared Multiple Correlations Between the WITH Variables and the First M Canonical Variables of the
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型相关 典型 相关 课件
链接地址:https://www.31ppt.com/p-6074597.html