# 写在前面

前面介绍了一篇Grassmann流形上的投影度量学习[1],下面介绍一个关于判别分析的Grassmann流形推广工作[2]

# 线性判别分析

判别准则为

argminaaTSbaaTSwa\arg\min_{a}\frac{a^TS_ba}{a^TS_wa}

其中类间散度SbS_b和类内散度SwS_w分别为

Sb=k=1cnk(μ(k)μ)(μ(k)μ)TSw=k=1ci=1nknk(xi(k)μ(k))(xi(k)μ(k))T\begin{aligned} S_b&=\sum_{k=1}^c n_k(\mu^{(k)}-\mu)(\mu^{(k)}-\mu)^T\\ S_w&=\sum_{k=1}^c \sum_{i=1}^{n_k} n_k(x_i^{(k)}-\mu^{(k)})(x_i^{(k)}-\mu^{(k)})^T \end{aligned}

通过简单的变形,分子分母可换为

aTSba=k=1cnkaT(μ(k)μ)(μ(k)μ)Ta=k=1cnkaTμ(k)aTμ22=k=1cnkδE(aTμ(k),aTμ)aTSwa=k=1ci=1nknk(xi(k)μ(k))(xi(k)μ(k))T=k=1ci=1nknkaTxi(k)aTμ(k)22=k=1ci=1nknkδE(aTxi(k),aTμ(k))\begin{aligned} a^TS_ba&=\sum_{k=1}^c n_ka^T(\mu^{(k)}-\mu)(\mu^{(k)}-\mu)^Ta\\ &=\sum_{k=1}^c n_k\|a^T\mu^{(k)}-a^T\mu\|_2^2\\ &=\sum_{k=1}^c n_k\delta_E(a^T\mu^{(k)},a^T\mu)\\ a^TS_wa&=\sum_{k=1}^c \sum_{i=1}^{n_k} n_k(x_i^{(k)}-\mu^{(k)})(x_i^{(k)}-\mu^{(k)})^T\\ &=\sum_{k=1}^c \sum_{i=1}^{n_k} n_k\|a^Tx_i^{(k)}-a^T\mu^{(k)}\|_2^2\\ &=\sum_{k=1}^c \sum_{i=1}^{n_k} n_k\delta_E(a^Tx_i^{(k)},a^T\mu^{(k)})\\ \end{aligned}

# Grassmann流形投影

类似于PML一样,对流形点XG(p,D)X\in\mathcal G(p,D),使用投影映射f(X,A)=ATXf(X,A)=A^TX实现降维G(p,D)G(p,d)\mathcal G(p,D)\to\mathcal G(p,d),然而需要注意ATXG(p,d)A^TX\notin\mathcal G(p,d),需要取ATXA^TX的正交基矩阵orth(ATX)\text{orth}(A^TX)作为投影矩阵,记为(ATX)(A^TX^\prime)

Grassmann流形可嵌入到由对称正半定矩阵组成的空间中。对于点XG(p,D)X\in\mathcal G(p,D),其投影嵌入Π(X)=XXTS+D\Pi(X)=XX^T\in\mathcal S_+^D,而对称正半定矩阵空间S+D\mathcal S_+^D可以Frobenius范式度量距离,所以Grassmann流形的投影度量为

δP(X1,X2)=12Π(X1)Π(X2)F2=12X1X1TX2X2TF2\begin{aligned} \delta_P(X_1,X_2)&=\frac{1}{\sqrt 2} \|\Pi(X_1)-\Pi(X_2)\|_F^2\\ &=\frac{1}{\sqrt 2} \|X_1X_1^T-X_2X_2^T\|_F^2 \end{aligned}

有了距离后可计算nn个样本在Grassmann流形上的Frechet均值点

M=argminMi=1nδP(Xi,M)M^\star = \arg\min_M \sum_{i=1}^n \delta_P(X_i,M)

该问题具有解析解:i=1nXiX)iT\sum_{i=1}^nX_iX)i^Tpp个最大的特征向量。

# 基于Frechet均值的Grassmann判别分析

类似于欧式空间的线性判别分析,下面给出Grassmann流形上的判别分析。判别准则需同时满足以下两个条件:

  • 最大化类间距离

  • 最小化类内距离

对应改变线性判别分析目标函数

  • 使用Frechet均值MM代替欧式空间的几何均值μ\mu

  • 使用投影距离δP\delta_P代替欧式空间的直线距离δE\delta_E

  • 使用流形间的投影f(X,A)f(X,A)代替欧式降维aTxa^Tx

db=k=1cnkδP(f(M(k),A),f(M,A))=k=1cnkATM(k)M(k)TAATMMTAF2dw=k=1ci=1nknkδP(f(Xi(k),A),f(M(k),A))=k=1cnkATXi(k)Xi(k)TAATM(k)M(k)TAF2\begin{aligned} d_b&=\sum_{k=1}^c n_k\delta_P(f(M^{(k)},A),f(M,A))\\ &=\sum_{k=1}^c n_k\|A^TM^{\prime(k)}M^{\prime(k)T}A-A^TM^{\prime}M^{\prime T}A\|_F^2\\ d_w&=\sum_{k=1}^c \sum_{i=1}^{n_k} n_k\delta_P(f(X_i^{(k)},A),f(M^{(k)},A))\\ &=\sum_{k=1}^c n_k\|A^TX_i^{\prime(k)}X_i^{\prime(k)T}A-A^TM^{\prime(k)}M^{\prime(k)T}A\|_F^2\\ \end{aligned}

对应的判别模型为

maxAdbdw\max_A \frac{d_b}{d_w}

# 迭代优化

使用QR分解的正交矩阵部分作为投影点的正交部分。下面以ATXi(k)A^TX_{i}^{\prime (k)}为例

ATXi(k)=QxiRxiA^TX_i^{(k)}=Q_{x_i}R_{x_i}

显然有Qxi=ATXi(k)Q_{x_i}=A^TX_i^{\prime (k)},其中Xi(k)=Xi(k)Rxi1X_i^{\prime (k)}=X_i^{(k)}R_{x_i}^{-1}。此外,QxiQ_{x_i}ATXi(k)A^TX_i^{(k)}具有相同的正交子空间。

B(k)=M(k)M(k)TMMTQik=Xi(k)Xi(k)TM(k)M(k)T\begin{aligned} B^{(k)}&=M^{\prime (k)}{M^{\prime (k)T}}-M^{\prime } M^{\prime T}\\ Q_{ik}&=X_i^{\prime (k)}{X_{i}^{\prime (k)T}}-M^{\prime (k)}{M^{\prime (k)T}}\\ \end{aligned}

db=k=1KnkATM(k)M(k)TAATMMTAF2=k=1KnkATB(k)AF2=k=1Knktr(ATB(k)AATB(k)A)dw=ATXi(k)Xi(k)TAATM(k)M(k)TAF2=k=1Ki=1nknkATQikAF2=k=1Ki=1nknktr(ATQikAATQikA)\begin{aligned} d_b&=\sum_{k=1}^K n_k\| A^TM^{\prime (k)}M^{\prime (k)T}A-A^TM^{\prime} M^{\prime T}A\| _F^2\\ &=\sum_{k=1}^K n_k\| A^T B^{(k)}A\|_F^2\\ &=\sum_{k=1}^K n_k\text{tr}(A^TB^{(k)}AA^TB^{(k)}A) \\ d_w &=\| A^T X_i^{\prime (k)} X_{i}^{\prime (k)T}A-A^TM^{\prime (k)}M^{\prime (k)T}A\| _F^2\\ &=\sum_{k=1}^K \sum_{i=1}^{n_k}n_k\| A^TQ_{ik}A\| _F^2\\ &=\sum_{k=1}^K \sum_{i=1}^{n_k}n_k \text{tr} (A^TQ_{ik}AA^TQ_{ik}A) \end{aligned}

因此可以考虑固定内部A(t1)A(t1)TA^{(t-1)}A^{(t-1)T}作为已知,迭代外部的AA,直至收敛可解决判别模型。记

B~(t1)=k=1KnkB(k)A(t1)A(t1)TB(k)Q~(t1)=k=1Ki=1nknkQikA(t1)A(t1)TQik\begin{aligned} {\widetilde{B}}^{(t-1)}= & {} \sum _{k=1}^{K}n_k{B^{(k)}}A^{(t-1)}{A^{(t-1)T}}B^{(k)} \\ {\widetilde{Q}}^{(t-1)}= & {} \sum _{k=1}^{K}\sum \limits _{i=1}^{n_k}n_k Q_{ik}A^{(t-1)}{A^{(t-1)T}}Q_{ik} \end{aligned}

在第tt次迭代使用第t1t-1次迭代的结果A(t1)A^{(t-1)}来求解如下最大化问题

maxAtr(ATB~(t1)A)tr(ATQ~(t1)A)\max_A\frac{\text{tr}(A^T{\widetilde{B}}^{(t-1)}A)}{\text{tr}(A^T{\widetilde{Q}}^{(t-1)}A)}

该问题为一个迹比率优化问题,采用文章[3]的方法可高效求解判别模型。整体算法流程图如下:

# 小结

最近有在关注流形方面的文章,找了几个感兴趣的,后面会陆续整理出来。这篇文章[2:1]是拿着投影度量工具改造线性判别分析。不过始终觉得投影点取正交子空间这个操作有些gap,有没有一些映射直接保证流形结构?其次,文章改完之后对算法描述较少,这个里面有上升空间。

# References


  1. Grassmann流形上的投影度量学习 (opens new window) ↩︎

  2. Yu H , Xia K , Jiang Y , et al. Fréchet mean-based Grassmann discriminant analysis[J]. Multimedia Systems, 2020, 26(1):63-73. ↩︎ ↩︎

  3. Ngo T T , Bellalij M , Saad Y . The Trace Ratio Optimization Problem for Dimensionality Reduction[J]. Siam Journal on Matrix Analysis & Applications, 2015, 31(5):2950-2971. ↩︎