# 写在前面

最近又开始捡起以前的老本行了,打算写写材料先储备着。介绍Zhiwu Huang[1]前几年的投影度量学习[2]

# 投影度量学习

# 中心思想

用线性子空间来表示信号或图像在近些年来获得了较大的成功,而线性子空间是一种典型的非欧空间,其本质是Grassmann流形。该流形上特征学习的传统手段是是利用核方法将Grassmann流形嵌入到高维Hilbert空间,这里面用到了投影度量,可很好地近似Grassmann流形上的Riemannian几何。然而这种方法的通病在于:

  • 非显式映射,不适用新样本的特征提取与分类
  • 高额的计算成本,高维流形上的算子需要计算奇异值,不利于大规模问题

为此,投影度量学习被提出来实现几何角度的流形降维,得到一个低维且更具有判别力的Grassmann流形,降低运算量,提高特征的分辨能力。

该图对比了核化升维和流形间降维:

  • (a)-(b)-(d)-(e)需要将流形G(q,D)\mathcal G(q,D)上的点嵌入到高维的Hilbert空间H\mathcal H,再通过判别机制映射至低维的空间Rd\mathbb R^d中。
  • (a)-(b)-(c)则利用投影度量和映射直接完成原始的Grassmann流形G(q,D)\mathcal G(q,D)到低维Grassmann流形G(q,d)\mathcal G(q,d)的判别学习。

# 投影度量

Grassmann流形G(q,D)\mathcal G(q,D)RD\mathbb R^Dqq维线性子空间,且是q(Dq)q(D-q)维的紧致Riemannian流形。

对任意YG(q,D)Y\in \mathcal G(q,D),即满足YTY=IqY^T Y=I_q,给出投影映射Φ(Y)=YYT\Phi(Y)=YY^T,投影得到D×DD\times D的的对称矩阵,因此使用如下内积

Y1,Y2Φ=tr(Φ(Y1)TΦ(Y2))\left\langle Y_1,Y_2\right\rangle_{\Phi}=\text{tr}(\Phi(Y_1)^T\Phi(Y_2))

该内积对于子空间的具体实现(specific realization)具有不变性,诱导出如下距离

dp(Y1Y1T,Y2Y2T)=21/2Y1Y1TY2Y2TFd_p(Y_1 Y_1^T,Y_2 Y_2^T) = 2^{-1/2}\|Y_1 Y_1^T-Y_2 Y_2^T\|_F

该距离与Grassmannian流形上的真实测地线距离近差常数倍(2\sqrt{2})。

# 降维映射

由于投影矩阵的对称性,使用双线性映射可实现流形间G(q,D)G(q,d)\mathcal G(q,D)\to\mathcal G(q,d)的降维。

f(YiYiT)=WTYiYiTW=(WTYi)(WTYi)Tf(Y_iY_i^T)=W^TY_iY_i^TW=(W^TY_i)(W^TY_i)^T

其中变换矩阵WRD×dW\in\mathbb R^{D\times d}是列满秩的。除非WW是正交矩阵,WTYiW^TY_i不是正交基矩阵。下面用WTYiW^TY_i的正交部分WTYiW^TY_i^{'}作为投影后的点。

注意:双线性映射ff并不是直接对流形上的点YiG(q,D)Y_i\in\mathcal G(q,D)进行降维,而是对投影点YiYiTY_iY_i^T操作,得到WTYiG(q,d)W^TY_i^{'}\in\mathcal G(q,d)的投影点(WTYi)(WTYi)T(W^TY_i^{'})(W^TY_i^{'})^T,再考虑投影点间的几何关系。

# 学习投影度量

降维后的一对点(WTYi,WTYj)(W^TY_i^{'},W^TY_j^{'})在投影Φ\Phi意义下为(WTYiYiTW,WTYjYjTW)(W^T Y_i^{'}Y_i^{'T} W,W^T Y_j^{'}Y_j^{'T} W),因此距离度量

dp2(WTYiYiTW,WTYjYjTW)=21/2WTYiYiTWWTYjYjTWF2=21/2tr(PAijAijTP)\begin{aligned} &d_p^2(W^T Y_i^{'}Y_i^{'T} W,W^T Y_j^{'}Y_j^{'T} W)\\ &=2^{-1/2}\|W^T Y_i^{'}Y_i^{'T} W-W^T Y_j^{'}Y_j^{'T} W\|_F^2\\ &=2^{-1/2}\text{tr}(PA_{ij}A_{ij}^TP) \end{aligned}

其中Aij=YiYiTYjYjTA_{ij}=Y_i^{'}Y_i^{'T} - Y_j^{'}Y_j^{'T}P=WWTP=WW^T。由于WW仅假设列满秩的,因此PP是一个D×DD\times D的且秩为dd的对称半正定矩阵。

# 判别函数

下面分别给出类间散度Jb(P)J_b(P)(between-class)和类内散度Jw(P)J_w(P)(within-class)的定义

Jw(P)=1Nwi=1mj:Ci=Cj21/2tr(PAijAijTP)Jb(P)=1Nbi=1mj:CiCj21/2tr(PAijAijTP)\begin{aligned} J_w(P)&=\frac{1}{N_w}\sum_{i=1}^m\sum_{j:C_i=C_j}2^{-1/2}\text{tr}(PA_{ij}A_{ij}^TP)\\ J_b(P)&=\frac{1}{N_b}\sum_{i=1}^m\sum_{j:C_i\neq C_j}2^{-1/2}\text{tr}(PA_{ij}A_{ij}^TP) \end{aligned}

判别分析的一类传统设定是最大化投影点类间距离而最小化投影点类内距离,即目标函数为

argminPJ(P)=Jw(P)αJb(P)\arg\min_P J(P) = J_w(P) - \alpha J_b(P)

其中参数α\alpha为两个惩罚性的权衡系数。

# 标准化YY

前面提过,WW仅假设列满秩的,因此WTYiW^TY_i的列不是正交的,因此为满足低维的Grassmann流形的表示,对YiG(q,D)Y_i\in\mathcal G(q,D)进行标准化得到YiY_i^{'},以保证WTYiG(q,d)W^TY_i^{'}\in\mathcal G(q,d)

WTYiW^TY_i进行QR分解WTYi=QiRiW^TY_i=Q_i R_i,其中QiQ_i的列是正交的(半酉阵),而RiR_i是可逆的上三角阵。通过变换

Qi=WT(YiRi1)=WTYiQ_i = W^T(Y_i R_i^{-1}) = W^T Y_i^{'}

因此对YiY_i进行标准化得到Yi=YiRi1Y_i^{'}=Y_i R_i^{-1},则WTYiG(q,d)W^TY_i^{'}\in\mathcal G(q,d)

# 计算PP

由于PP是一个大小D×DD\times D且秩dd的对称半正定矩阵,目标函数关于PP的梯度需要在秩固定的流形上,因此需要使用非线性黎曼共轭梯度下降法(RCG)。

为简化判别目标函数,记

Sw=1Nwi=1mj:Ci=Cj21/2tr(AijAijT)Sb=1Nbi=1mj:CiCj21/2tr(AijAijT)\begin{aligned} S_w&=\frac{1}{N_w}\sum_{i=1}^m\sum_{j:C_i=C_j}2^{-1/2}\text{tr}(A_{ij}A_{ij}^T)\\ S_b&=\frac{1}{N_b}\sum_{i=1}^m\sum_{j:C_i\neq C_j}2^{-1/2}\text{tr}(A_{ij}A_{ij}^T) \end{aligned}

则两个散度可简化成矩阵的表示

Jw(P)=PSwP,Jb(P)=PSbPJ_w(P) = PS_wP,J_b(P) = PS_bP

目标函数为

argminPJ(P)=tr(PSwP)αtr(PSbP)\arg\min_P J(P) = \text{tr}(PS_wP)-\alpha\text{tr}(PS_bP)

在第kk次迭代上,该函数的欧式梯度为

DPJ(Pk)=2(SwαSb)PkD_PJ(P_k)=2(S_w-\alpha S_b)P_k

对应的黎曼梯度可从欧式梯度DPJ(Pk)D_PJ(P_k)进行

PJ(Pk)=DPJ(Pk)PkPkTDPJ(Pk)\nabla_PJ(P_k) = D_PJ(P_k) - P_kP_k^T D_PJ(P_k)

通过组合新的黎曼梯度和旧的搜索方向Hk1H_{k-1}可得到新的搜索方向

HkPJ(Pk)+ητ(Hk1,Pk1,Pk)H_k \leftarrow -\nabla_PJ(P_k) + \eta \tau(H_{k-1},P_{k-1},P_k)

# 算法流程图

# 小结

这篇文章虽然是15年的CVPR,但是现在看来文章的想法依然很先进,目前基于流形的判别学习都大致是这类套路,首先将数据信息刻划到流形上,再从流形的几何性质出发,最后构造合适的目标函数并求解。至于用什么性质,构造出什么样的模型,就看功底了。本质上来说,这类文章属于机器学习利用了几何的工具衍生出的一个分支。

# References


  1. Zhiwu Huang, Computer Vision Lab: https://zhiwu-huang.github.io/ (opens new window) ↩︎

  2. Z. Huang, R. Wang, S. Shan and X. Chen, Projection Metric Learning on Grassmann Manifold with Application to Video based Face Recognition, 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 140-149, doi: 10.1109/CVPR.2015.7298609. ↩︎