大华彩票安卓版_下载官方彩票app安卓版

当前位置:主页 > 典范相关 > 本文内容

典范相关研究pptx

发布时间:2019-12-03 16:20源自:未知作者:admin阅读()

  实用多变数分析 4、典范相关分析 Canonical Correlation Analysis;1、典范变数与典范相关 若对一个个体观察了一组(p+q)个、可分成两种不同类型(或不同性质的)性状: x’=(x1, x2, …, xp), y’=(y1, y2, ..., yq) 如:对小麦品系(单株)考察了株高、茎粗、(剑)叶长、叶宽、穗下节间长、单株成穗数、主穗小穗数、每穗粒数、千粒重、单株产量等性状,可将前面的5个性状看成是株型性状,后面6个性状看成是穗部或产量性状,它们分别以x,y表示。; 这样的性状分类事实上很常见,如株型与产量性状,产量与品质性状,淀粉与蛋白质性状,RVA特征值与淀粉蛋白质性状,长度与重量性状,价格与消费量性状等等。当考察了n个个体以后,我们往往要了解两组变数在整体上有无关系?有多大的关系?用典范相关的语言,指的是一组变数主要方向上的变异能否由另一组变数主要方向上的变异所说明?及其这种说明的程度?;设x变数的线性组合为: ξ=a’x?=a1x1+a2x2+…+apxp; y变数的线性组合为: η=b’y=b1y1+b2y2+…+bqyq a’=(a1, a2, …, ap), b’=(b1, b2, …,bq), 能否有a, b,使ξ与η之间有一个最大的相关?即,ρξη=max;在求 a, b时,须满足的条件有: E(ξ)=E(η)=0, V(ξ)=V(η)=1;根据条件: V(ξ)=V(a’x)=a’V(x)a=a’Σxxa=1 V(η)=V(b’y)=b’V(y)b=b’ Σyyb=1 构造一个函数(G):; ; ; ;因此,;由;前式可写成:;上式可理解为:;及;若令:;通过B=; 这ξ1,η1称为第1对典范变数,λ1为第1典范相关系数(注:不是 )。;典范变数的几点特征: 1)ξi与ξj是相互独立的,ηi与ηj也是独立的,这可从特征值、特征向量(亦即主成分)的特性可知;;2)ξi与ηj是相互独立的,它们间的相关系数为0;;到此,似乎解决了所有的问题,但; 以上的分析是在原始数据的基础上进行的,典范相关更多地是在数据标准化的基础上进行,即每一个变数具有同等的权重。因而,典范相关分析从相关阵开始。若从相关系数矩阵开始:将用R取代Σ,用RXX取代ΣXX,用RXY取代ΣXY,用RYY取代ΣYY,与上述过程进行相同的运算,求出a, b, 以及λ。;2、典范变数的应用 第1典范变数ξ1,η1代表了具有最大相关的两组变数最大变异度方向的线性组合:; 由于两组多维变数的关系退化成两个1维变数之间的关系,这种关系可用图形的形式表示出来,使这种关系一目了然,便于对结果的分析与解释。;3、典范相关系数的测验 Bartlett(1941)提出了一个测验方法,对于第1典范相关系数λ1:;4、一些例子;help canoncorr CANONCORR Canonical correlation analysis. [A,B] = CANONCORR(X,Y) computes the sample canonical coefficients for the N-by-P1 and N-by-P2 data matrices X and Y. X and Y must have the same number of observations (rows) but can have different numbers of variables (cols). A and B are P1-by-D and P2-by-D matrices, where D = min(rank(X),rank(Y)). The jth columns of A and B contain the canonical coefficients, i.e. the linear combination of variables making up the jth canonical variable for X and Y, respectively. Columns of A and B are scaled to make COV(U) and COV(V) (see below) the identity matrix. If X or Y are less than full rank, CANONCORR gives a warning and returns zeros in the rows of A or B corresponding to dependent columns of X or Y. [A,B,R] = CANONCORR(X,Y) returns the 1-by-D vector R containing the sample canonical correlations. The jth element of R is the correlation between the jth columns of U and V (see below). [A,B,R,U,V] = CANONCORR(X,Y) returns the canonical variables, also known as scores, in the N-by-D matrices U and V. U and V are computed as U = (X - repmat(mean(X),N,1))*A and V = (Y - repmat(mean(Y),N,1))*B. ;[A,B,R,U,V,STATS] = CANONCORR(X,Y) returns a structure containing information relating to the sequence of D null hypotheses H0_K, that the (K+1)st through Dth correlations are all zero, for K = 0:(D-1). STATS contains eight fields, each a 1-by-D vector with elements corresponding to values of K: Wilks: Wilks lambda (likelihood ratio) statistic chisq: Bartletts approximate chi-squared statistic for H0_K, with Lawleys modification pChisq: the right-tail significance level for CHISQ F: Raos approximate F statistic for H0_K pF: the right-tail significance level for F df1: the degrees of freedom for the chi-squared statistic, also the numerator degrees of freedom for the F statistic df2: the denominator degrees of freedom for the F statistic ;Example: load carbig; X=[Displacement Horsepower Weight Acceleration MPG]; nans = sum(isnan(X),2) 0; [A B r U V]=canoncorr(X(~nans,1:3), X(~nans,4:5)); plot(U(:,1),V(:,1),.); xlabel(0.0025*Disp + 0.020*HP - 0.000025*Wgt); ylabel(-0.17*Accel + -0.092*MPG); ; ;实用多变数分析 5、因子分析 Factor Analysis;1、导言 20世纪初,Karl Pearson & Charles Spearman 就开始用此方法分析一些问题,后者曾对一些学生的考试成绩进行分析。根据这些变数(成绩)及其它们之间的相互关系,用少量但本质的成分如:理解力、逻辑思维能力、记忆力等来说明学生的考试成绩。一开始由于涉及智力和精神分析方面的解释,带有一点神秘感,另加上计算繁琐的阻滞,此法一经提出,未见有多大进展。计算机的出现和广泛使用,因子分析计算量大的问题基本得到解决,再加上软件的普遍使用,因子分析的应用有所抬头,经常看到有关因子分析的文献。因子分析的基本目的在于通过变数之间的相互关系,可能的话,用少量不可观察的(unobservable)、但起根本性作用(underlying)的因子(factors)来描述。 ; 田径运动中运动员在各项目的表现,如短跑、跳高、跳远、中长跑、铅球、铁饼、标枪的成绩,能否可以分解为几个基本因子如速度、爆发力、弹跳力和耐力所组成,即这些项目的成绩可以用速度、爆发力等因子的线性组合所表述。某些运动员若在某些能力上较弱,可以针对性地加以训练,以便收取较好效果。同样,学生的考试成绩可以用理解力、逻辑思维能力、记忆力等因子的线性组合所表达。也能对某些能力缺陷进行重点训练、培养。或,组织人事部门能掌握(洞察)有关人员的不可观察的但起根本作用的一些能力如记忆力、语言表达能力、逻辑思维能力,就能因才施教、知人善任、人尽其才。;2、因子分析模式 设x是一个p维变数,具有平均数μ和方差Σ,x变数可由一些未知的、不可观察的、具有本质作用的m个公共因子(F1, F2, ..., Fm, mp)再加上p个特殊因子的线性可加模型所表示:;系数lij称为第i个变数在第j个因子上的负荷量(loading),L称为因子负荷量矩阵(matrix of factor loadings)。F1, F2, ..., Fm对所有xi都有作用(如果有作用的话),称为公共因子(common factors),而特异因子εi只与第i个变数有关,称为特殊(异)因子(special factor)。; p个变数的离差 x1-μ1, x2-μ2, ..., xp-μp, 是以p+m个变数F1, F2, ..., Fm+ε1, ε2, ..., εp所表达,而这m+p个起根本作用的因子又是不可观察的,因此,解出这L, F, ε是比较困难的,必须加一些条件: ⅰ F与ε是独立的:cov(F, ε)=0m×p E(F)=0, V(F)=I E(ε)=0, V(ε)=diag(e1,e2, ..., ep)=E;ⅱ V(x-μ)=V(LF+ε)=LV(x-μ)L’+V(ε)+2cov(LF, ε) =LIL’+E+2Lcov(F, ε)=LL’+E; 上述模式是p个变数的由m个公共因子的线性表达。如果p个变数实际上与基本因子是有关的,但不一定成线性,则上述表述不一定正确。但线性模型是最简单的,也能说明较多的问题,因此这一线性模型应用最广泛,可视为经典模型。;再回头看上式:; 对一组p维x数据,能否用尽可能少的公共因子F来说明,即求出L, E来,其中mp。 当m=p时,Σ能精确地分解为LL’,但此时的E是个0矩阵,这一般也没有多大用处。只有当mp时,因子分析才较为有用。且m越小,以越少的公共因子说明原x变数的信息,因子分析才越有用。 一般而言,Σ不能精确地分解为LL’+E,尤其是因子数m远小于p时,这样的分解难于实现,这就给因子分析的应用带来问题。;另外,当m1时,有时因子模式也会产生不确定的结果。若T是m×m的正交矩阵:;3、估计方法 给出p个相关的变数:x1, x2, ..., xp以及由此得到的方差协方差阵Σ,因子分析寻求解答这样的问题,是否这些因子模式(具有少数几个因??),正确地表达这些数据。一是要估计合适的因子数m,二是确定合适的因子负荷量矩阵L,三是估计特殊方差E。;样本方差协方差阵S是Σ的估计,一般因子分析是从S或相关阵R开始的。如果S的非对角线元素很小,或相关矩阵R的非对角线,变数是不相关的,则因子分析不会有用。; ;1)主成分方法(principal component method) 有方差协方差阵S,可对它进行谱分解: S具有特征值、特征向量对( ),; 虽然上面的表示是正确的,但这并不有用。这里有p个公共因子,没有给特殊因子留下余地。我们需要地是用较少的公共因子来解释,而不是像上述那样的p个因子。解决的方法也很简单,就是当最后p-m个特征值(λi)很小时,可以将其略去。 ; 而ε这一特殊因子也能得到。它的方差可由S-LL’的对角线元素相减而得:; 主对角线,如果其他元素也很小的话,可以认为是找到了一个合适的m,比较理想的情形是,前面少数几个因子对样本方差的贡献是大的,也就包括了较少的因子数,m较小。;由第j个公共因子对第i个变数样本方差的贡献是;第 j 个公共因子对于总方差的贡献:; 上述的第 j 因子对于总方差贡献的比例,常作为一种启发手段,以决定合适的因子数目m。在因子模式中因子数目逐步增加,直至样本方差的一个恰当的成分为此模式所说明,便是较合适的因子数。一般而言,当:;2)主因子方法——一种改进的方法 我们也可以用另外的方法来描述R的析因过程。当然其过程也适用于方差协方差阵S。 如果因子分析模式:;假如一开始,我们就能估计;此时,m个公共因子的贡献率需重新计算:; 以主成分的思想,我们可以以(λ1, λ2, ..., λm)的大小来决定m的个数,如取前面m个λi1的主因子入选,后面的p-m个λi1的主因子剔除。问题的复杂性还在于此时R*不再是正定阵,它的特征值很可能会出现负值,为因子数的决定带来困难。不过,在大多数情况下,出现负数或绝对值大的负数的情况较少见。比较常见的是前面m个大的特征值的,后面的特征值较小,或者为0,或者小的负数,这种情况对因子分析的影响不算很大。若特征值出现很大的负数,那肯定是不合适的,应该重新选取初值并迭代运算。;有时(很多情况下),;3)极大似然法 假定F与ε是正态分布的(这一般也是成立的),L与E可用极大似然法进行估计。;构建似然函数:;例:Linden(1977)对二战后奥林匹克十项全能(decathlon)比赛的成绩进行了因子分析。7届139人得到了160组数据(有一些人是重复参加比赛的)。十项的成绩进行了标准化处理,因子分析是在相关系数阵的基础上进行的。对相关阵分别进行了主成分和极大似然法分解。;;方法; 由主成分因子分析,前面4个特征值分别为3.78,1.52,1.11,0.91,前面4个主成分能说明总变异的73%,可由4个因子所说明。极大似然法说明的成份为61%,比4个主成分因子说明的比例略小。 在这一例中,两种方法得到的结果有较大差别。对于主成分来说,所有项目除了1500m以外,都在第1因子上具有较大的负荷,这可以说是general athletic ability(基本运动能力)。因子2主要说明跑跳能力(腿力)对比于投掷力(臂力)。因子3是速度对比于耐力,其中对撑杆跳也有较高的负荷。因子4在撑杆跳、400m和跳高上有较高负荷,与弹跳力有一定关系。; 对于极大似然法而言,1500m是仅有的对第1因子具有大负荷的项目,可能是一个耐力因子。因子2主要在铅球和铁饼上有较大负荷,可视为是力量(臂力)因子。因子3可能主要是速度因子,与速度无关的运动在这一因子上几乎没有负荷量。第4因子也难于直观地看出,基本和腿部力量有关。; 特异方差在各个项目上占有一定的比重,如主成分方法仍有27%,本还可以再分解出一些公共因子,但在一些项目上的特异方差已经很小了,公共因子数目的增加已不能说明更多的总变异。在一些项目上,特异方差仍较大,说明这些项目不能为公共因子的线性组合所说明,这也说明这些项目如标枪、撑杆跳等需要较高的技术。; 极大似然法的结果也较相似。虽然它在说明方差的成分上稍小,但在一些项目上的特异方差趋于0。这些项目基本能由前面4个因子的线性组合所说明,甚至有些项目只需前面两个因子便能完全说明。而在标枪、撑杆跳等项目上,特异方差较大,单靠臂力、腿力、耐力是不可能有好成绩的,它们需要特有的技术。 ;残差阵:R-LL’-E;4、因子旋转(factor rotation) 上面提到了如果得到一个因子负荷矩阵后,若进行正交变换:; 特异方差ei不变,共因子方差h2不改变,残差阵R-LL-E,S-LL-E也没有改变。那进行变换有什么意义呢?主要在于由主成分或极大似然法得到的因子负荷量矩阵,对因子的解释不够明确,结构不那么简单,不那么清晰易懂。通过正交旋转,则可以获得一个简单、易于解释的结构。这一原理如同调节显微镜的焦距,使细节易于看清一样:The rationale is very much akin to sharpening the focus of microscope in order to see the detail more clearly. 较为理想的情形是这样的负荷量矩阵,每一变数只在一个因子上有较大的负荷,而在其它因子上的负荷较小。而实际获得的结果并非如此,因而可以采用旋转的方法帮助这个结果的实现。;;旋转后的因子解释:;5、因子得分(factor score) 因子分析的主要目的是将一组 p 维变数的变异能分解为公共因子再加上特异因子的线性表示,但人们还对每个个体的因子值感兴趣。我们还对某个个体(运动员)在某些因子上的得分感兴趣,比如他(她)的爆发力、耐力是正是负(平均数为0),正负的程度如何?与其他人相比,它的能力的强项、弱项是那些?是否有适当的方法发挥长处、克服缺陷。有一个因材施教、人尽其才,知人善任的问题。知道个体在某些因子上表现,这就是求算因子得分的问题。 ; 在求因子得分时,可认为因子负荷量矩阵L与第 j 个体的表型值 xj 等是已知的。由模型:;由主成分因子分析:;类似于主成分值,但前面有并不完全相同的系数。 ; 以极大似然法得到的结果也可用上述步骤,但上述结果的表达式不一样。相对而言,用极大似然法得到的结果相对较好,在matlab中只有极大似然法的命令:[lambda,psi,T,stats,F] = factoran(X, m) 注意对于因子分析及其它多变数分析,有时用一个参数解释比较复杂的现象有很大的困难,单个参数有其简单明了的优点,也会有不能包罗万象的问题。有时subjective more than objective (主观多于客观),使用时应充分注意。;Thank your attention!

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

欢迎分享转载→ 典范相关研究pptx

上一篇:典范_典型_范例

下一篇:最新典范典范

Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有 备案号:网站地图收藏本站 - 网站地图 - - -