请注意,文章中部分理解可能已被笔者废弃,本文最后更新于:6 个月前
典型相关分析 (Canonical Correlation Analysis ,CCA)
是为了研究两组变量(向量)之间的关联关系,其目的是找出两组变量的各自的 r 组线性组合,线性组合的相关性从大到小排列,以主成分思想衡量两组变量之间的线性关系。
[x1,x2,⋯,xp],[y1,y2,⋯,yq]
首先分别在每组变量中找出第 k 对线性组合,使其具有第 k 大最大相关性,即
{uk=αk1x1+αk2x2+⋯+αkpxpvk=αk1y1+αk2y2+⋯+αkqyq
(k=1,2,⋯,r⩽min(p,q))
其中 uk 与 u1,u2,…,uk−1 线性无关, vk 与 v1,v2,…,vk−1 线性无关,且相关性从小到大依次排列。
典型相关分析数学模型
典型相关和典型相关变量定义
设两组随机变量为 X=[x1,x2,⋯,xp]T,Y=[y1,y2,⋯,yq]T 。我们希望找到 α=[α1,⋯,αp],β=[β1,⋯,βp] 使得 ρ(αX,βY) 最大。由相关系数定义:
ρ(αX,βY)=Var(αX)Var(βY)Cov(αX,βY)
对于任意常数 k1,k2,c1,c2 有
ρ(k1αX+c1,k2βY+c2)=ρ(αX,βY)
说明 αX,βY 不唯一,故限定 Var(αX)=1,Var(βY)=1 即满足与协方差矩阵的关系 αΣXXαT=1,βΣYYβT=1 。
如果存在 αk=[αk1,αk2,⋯,αkp],βk=[βk1,βk2,⋯,βkq] 使得
⎩⎨⎧ρ(αkX,αjX)=0,ρ(βkY,βjY)=0,j=1,2,…,k−1ρ(αkX,βkY)=maxρ(αX,βY)<ρ(αk−1X,βk−1Y)αkΣXXαkT=1,βkΣYYβkT=1
则称 αkX,βkY 是 X,Y 的第 k 对(组)典型相关变量,他们之间的相关系数称之为第 k 个典型相关系数 (k=1,2,…,min(p,q))。
典型相关变量的解法
将两组变量的协方差矩阵分块得
Cov[XY]=[Var(X)Cov(Y,X)Cov(X,Y)Var(Y)]=[ΣXXΣYXΣXYΣYY]
此时
ρ(u,v)=D(αX)D(βY)Cov(αX,βY)=αΣXYβT
此问题转换为在 αΣXXαT=1,βΣYYβT=1 条件下求 αΣXYβT 的极大值。
引入拉格朗日乘数 λ,ω 即问题为求下式的最大值。
S(α,β)=αΣXYβT−2λ(αΣXXαT−1)−2ω(βΣYYβT−1)
由极值的必要条件得到偏导方程组
{∂α∂S=ΣXYβ−λΣXXα=0∂β∂S=ΣYXα−ωΣYYβ=0
中间过程略,详见或。得
{(ΣXYΣYY−1ΣYX−λ2ΣXX)α=0(ΣYXΣXX−1ΣXY−λ2ΣYY)β=0
记
M1=ΣXX−1ΣXYΣYY−1ΣYX,M2=ΣYY−1ΣYXΣXX−1ΣXY
得
M1α=λ2α,M2β=λ2β
记 T=ΣXX−1/2ΣXYΣYY−1/2 有 M1=TT′,M2=T′T 故 M1,M2 有相同的非零特征值
说明 λ2 既是 M1 又是 M2 的特征根, α,β 是对应的特征向量, M1,M2 的特征根非负数且在区间 [0,1] 上,非零特征根的数量不妨设为 r=min(p,q)。
设特征根排列为 λ12≥λ22≥⋯≥λr2 其余特征根为 0 ,称 λ1,λ2,⋯,λr 为典型相关系数。对应从 M1α=λ2α 解出的特征向量为 α1,⋯,αr ;从 M2β=λ2β 解出的特征向量为 β1,⋯,βr 。可得到 uk vk 的线性组合:
uk=αkX,vk=βkX,k=1,2,⋯,r,
满足:
Cov(ui,uj)=0,Cov(vi,vj)=0,i=jCov(ui,vi)=λi,Cov(ui,vj)=0,i=j
样本典型相关分析步骤
设样本总体 Z=[x1,⋯,xp,y1,⋯,yq]T
对于每次观测
Z(t)=[X(t)Y(t)](p+q)×1(t=1,2,⋯,n)
于是样本数据矩阵为
⎝⎜⎜⎜⎜⎛⎣⎢⎢⎢⎡x11x12⋮x1nx21x22⋮x2n⋯⋯⋯xp1xp2⋮xpny11y12⋮y1ny21y22⋮y2n⋯⋯⋯yq1yq2⋮yqn⎦⎥⎥⎥⎤T⎠⎟⎟⎟⎟⎞(p+q)×n
协方差矩阵的无偏估计为
Σ^=n−11t=1∑n(Z(t)−Zˉ)(Z(t)−Zˉ)′
其中 Zˉ=n1i=1∑nX(i)
记样本矩阵 Z(p+q)×n 每个元素减去每一行的平均值得到矩阵 Z(p+q)×n∗
Σ^=n−11Z∗(Z∗)T=[Σ^XXΣ^YXΣ^XYΣ^YY]pq
样本典型相关变量和系数
以下用 Σ^ 替换 Σ 。
记
M1=ΣXX−1ΣXYΣYY−1ΣYXM2=ΣYY−1ΣYXΣXX−1ΣXY
分别求出 M1,M2 的特征值与特征向量,特征值从大到小排列为 λ12,λ22,… ,其对应的特征向量分别为 (α1,α2,…) 和 (β1,β2,…)
令 T=ΣXX−1/2ΣXYΣYY−1/2 ,计算 TT′ 的特征值从大到小排列为 λ12,λ22,… ,记 lk 为 TT′ 的特征根 λk2 对应的单位正交特征向量。令
{αk=ΣXX−1/2lk,βk=λk−1ΣYY−1ΣYXαk,
原始变量与典型变量相关性
原始变量与典型变量的相关系数
ρ(xi,uj)=k=1∑pαkjCov(xi,xk)/D(xi),j=1,⋯,s∘ρ(xi,vj)=k=1∑qβkjCov(xi,yk)/D(xi),j=1,⋯,s,ρ(yi,uj)=k=1∑pαkjCov(yi,xk)/D(yi),j=1,⋯,s,ρ(yi,vj)=k=1∑qβkjCov(yi,yk)/D(yi),j=1,⋯,s∘
各组原始变量被典型变量所解释的方差比例
原始变量 X 被 ui 解释的方差比例
mui=k=1∑pρ2(ui,xk)/p
原始变量 X 被 vi 解释的方差比例
mvi=k=1∑pρ2(vi,xk)/p
原始变量 Y 被 ui 解释的方差比例
nui=k=1∑qρ2(ui,yk)/q
原始变量 Y 被 vi 解释的方差比例
nvi=k=1∑qρ2(vi,yk)/q
样本典型相关系数显著性检验
整体检验
H0:λ1=λ2=⋯=λr=0,即ΣXY=0H1:λi(i=1,2,…,r)中至少有一个非0,即ΣXY=0
记
Λ1=∣∣∣Σ^XX∣∣∣∣∣∣Σ^YY∣∣∣∣Σ^∣
得
Λ1=∣∣∣Ip−Σ^XX−1Σ^XYΣ^YY−1Σ^YX∣∣∣=i=1∏r(1−λi2)
验证统计量
Q1=−[n−1−21(p+q+1)]lnΛ1
近似服从自由度为 pq 的 χ2 分布,在给定的显著性水平 α 下,若 Q1≥χα2(pq) ,则拒绝原假设,认为至少第一对典型变量之间相关性显著。
部分总体为零的检验
H0:λ2=λ3=⋯=λr=0,H1:λ2,λ3,⋯,λr至少有一个非零
若原假设 H0 被接受,则认为只有第一对典型变量有用;若 H0 被拒绝,则第二对典型变量也有用,并进行进一步假设
H0:λ3=λ4=⋯=λr=0,H1:λ3,λ4,⋯,λr至少有一个非零
如此进行下去直到对于某个 k
H0:λk=λk+1=⋯=λr=0,H1:λk,λk+1,⋯,λr至少有一个非零
记
Λk=i=k∏r(1−λi2)
在原假设为真的情况下
Qk=−[n−k−21(p+q+1)]lnΛk
近似服从自由度为 (p−k+1)(p−k+1) 的 χ2 分布。在显著性水平 α 下若 Qk≥χα2[(p−k+1)(p−k+1)] ,则拒绝原假设,则至少认为第 k 对典型变量之间相关性显著。
参考