# 写在前面

最近看了些矩阵补全和矩阵结构化的文章,看到张老师主页[1]上有很多这个方向的成果,下面挑了一个16年的文章[2]

# Schur 补

给一个分块矩阵

[A11A12A21A22]\left[\begin{array}{c|c} \mathbf{A}_{11} & \mathbf{A}_{12} \\ \hline \mathbf{A}_{21} & \mathbf{A}_{22} \end{array}\right]

  • 如果块矩阵A11\mathbf{A}_{11}可逆,则称A22A21A111A12\mathbf{A}_{22}-\mathbf{A}_{21}\mathbf{A}_{11}^{-1}\mathbf{A}_{12}A11\mathbf{A}_{11}的Schur 补
  • 如果块矩阵A22\mathbf{A}_{22}可逆,则称A11A12A221A21\mathbf{A}_{11}-\mathbf{A}_{12}\mathbf{A}_{22}^{-1}\mathbf{A}_{21}A22\mathbf{A}_{22}的Schur 补

用Schur 补可得到块矩阵的逆

[A11A12A21A22]1=[I0A221A21I]×[(A11A12A221A21)100A221]×[IA12A2210I]\begin{array}{rcl} {\left[\begin{array}{c|c} \mathbf{A}_{11} & \mathbf{A}_{12} \\ \hline \mathbf{A}_{21} & \mathbf{A}_{22} \end{array}\right]^{-1}} =\left[\begin{array}{c|c} \mathbf{I} & \mathbf{0} \\ \hline-\mathbf{A}_{22}^{-1} \mathbf{A}_{21} & \mathbf{I} \end{array}\right]&\times&\\ \left[\begin{array}{c|c} \left(\mathbf{A}_{11}-\mathbf{A}_{12} \mathbf{A}_{22}^{-1} \mathbf{A}_{21}\right)^{-1} & \mathbf{0} \\ \hline \mathbf{0} & \mathbf{A}_{22}^{-1} \end{array}\right]&\times&\left[\begin{array}{c|c} \mathbf{I} & -\mathbf{A}_{12} \mathbf{A}_{22}^{-1} \\ \hline \mathbf{0} & \mathbf{I} \end{array}\right] \end{array}

# 矩阵补全

当观察元素是

  • 均匀随机抽样
    • 核范数最小化
  • 独立取样但不统一
    • 加权核范数最小化(已知采样分布)
    • 经验加权核范数最小化(未知采样分布)
    • 最大范数最小化(最小二乘)
  • 结构化采样?

# 结构化矩阵补全

目标:给定矩阵的某些行和列来恢复整个矩阵。由于矩阵奇异值关于行、列置换具有不变性,因此可对矩阵AA进行分块,给定矩阵AA的部分行[A11,A12][A_{11}, A_{12}]和列[A11;A21][A_{11};A_{21}],求解A22A_{22}

Ap1×p2=((A11)m2×m1(A12)(p2m2)×m1(A21)m2×(p1m1)(A22)(p2m2)×(p1m1))A_{p_1\times p_2} = \begin{pmatrix} (A_{11})_{m_2\times m_1} & (A_{12})_{(p_2 - m_2)\times m_1} \\ (A_{21})_{m_2\times {(p_1-m_1)}} & ({\color{red} A_{22}})_{(p_2 - m_2)\times (p_1-m_1)} \end{pmatrix}

该补全问题如果不限制矩阵的特征,则存在无穷解。下面考虑近似低秩的先验假设。

# 精确低秩矩阵恢复

当矩阵AA的秩为rr时,记A11A_{11}的奇异值分解为A11=UΣVA_{11} = U\Sigma V^{\intercal},如果

rank([A11A12])=rank([A11A21])=rank(A)=r\text{rank}([A_{11} \; A_{12}] ) = \text{rank}\left(\begin{bmatrix} A_{11}\\ A_{21} \end{bmatrix} \right) = \text{rank}(A) = r

rank(A11)=r\text{rank}(A_{11}) = r,且A22A_{22}可精确求解

A22=A21(A11)A12=A21V(Σ)1UA12.A_{22} = A_{21}(A_{11})^\dagger A_{12} = A_{21}V(\Sigma)^{-1}U^{\intercal}A_{12}.

  • 注意在相同条件下,核范数最小化则无法得到A22A_{22}的精确解

A^22=argminB[A11A12A21B]\hat A_{22} = \arg\min_{B} \left\|\begin{bmatrix} A_{11} & A_{12}\\ A_{21} & B \end{bmatrix}\right\|_\ast

  • 此外一些其他的变体,例如惩罚的核范数最小化与松弛化的约束核范数最小化对结构化矩阵补全问题求解不稳定。

  • 精确的秩先验可以得到显式解,且解的形式简单。

  • 对矩阵A11A_{11}产生微小的扰动都会使得(A11)(A_{11})^\dagger不稳定(非连续性),不适合近似低秩的情形。

# 近似低秩矩阵恢复

当矩阵AA的第rr个奇异值σr(A)\sigma_r (A)与第r+1r+1个奇异值σr+1(A)\sigma_{r+1} (A)存在明显的差异(significant gap),且拖尾(kr+1σkq(A))1/q\left(\sum_{k\geq r+1}\sigma_k^q (A)\right)^{1/q}特别小,则称矩阵AA为近似秩rr

令分块矩阵AA的奇异值分解为

A=UΣV=(U11U12U21U22)(Σ100Σ2)(V11V12V21V22)=(U11U21)Σ1(V11V21)+(U12U22)Σ2(V12V22)=(U11Σ1V11U11Σ1V21U21Σ1V11U21Σ1V21)+(U12Σ2V12U12Σ2V22U22Σ2V12U22Σ2V22)=U1Σ1V1+U2Σ2V2=Amax(r)+Amax(r)\begin{aligned} A &= U\Sigma V^{\intercal}\\ &=\begin{pmatrix} U_{11} & U_{12}\\ U_{21} & U_{22}\\ \end{pmatrix} \begin{pmatrix} \Sigma_{1} & 0\\ 0 & \Sigma_{2}\\ \end{pmatrix} \begin{pmatrix} V_{11} & V_{12}\\ V_{21} & V_{22}\\ \end{pmatrix}^{\intercal}\\ &=\begin{pmatrix} U_{11}\\ U_{21}\\ \end{pmatrix} \Sigma_{1} \begin{pmatrix} V_{11}^{\intercal} & V_{21}^{\intercal} \end{pmatrix} + \begin{pmatrix} U_{12}\\ U_{22}\\ \end{pmatrix} \Sigma_{2} \begin{pmatrix} V_{12}^{\intercal} & V_{22}^{\intercal} \end{pmatrix}\\ &=\begin{pmatrix} U_{11}\Sigma_{1}V_{11}^{\intercal} & U_{11}\Sigma_{1}V_{21}^{\intercal}\\ U_{21}\Sigma_{1}V_{11}^{\intercal} & U_{21}\Sigma_{1}V_{21}^{\intercal}\\ \end{pmatrix} + \begin{pmatrix} U_{12}\Sigma_{2}V_{12}^{\intercal} & U_{12}\Sigma_{2}V_{22}^{\intercal}\\ U_{22}\Sigma_{2}V_{12}^{\intercal} & U_{22}\Sigma_{2}V_{22}^{\intercal}\\ \end{pmatrix} \\ & = U_{\bullet 1}\Sigma_1 V_{\bullet 1}^{\intercal} + U_{\bullet 2}\Sigma_2 V_{\bullet 2}^{\intercal}\\ & = A_{\max(r)} + A_{-\max(r)} \end{aligned}

其中,Uk=[U1k,U2k],Uk=[Uk1,Uk2]U_{\bullet k}=[U_{1k}^{\intercal},U_{2k}^{\intercal}]^{\intercal},U_{k \bullet}=[U_{k1},U_{k2}]

# 已知秩rr

Amax(r)A_{\max(r)}可视为矩阵AA的秩rr近似矩阵,显然Amax(r)A_{\max(r)}关于A^22\hat A_{22}的Schur 补可表示为

U21Σ1V21={U21Σ1V11}{U11Σ1V11}1{U11Σ1V21}U_{21}\Sigma_{1}V_{21}^{\intercal} = \{U_{21}\Sigma_{1}V_{11}^{\intercal}\} \{U_{11}\Sigma_{1}V_{11}^{\intercal}\}^{-1} \{U_{11}\Sigma_{1}V_{21}^{\intercal}\}

因此,可以使用Amax(r)A_{\max(r)}的分块矩阵U21Σ1V21U_{21}\Sigma_{1}V_{21}^{\intercal}部分来近似计算A22A_{22}。算法如下:

该算法存在以下限制:

  • 需要已知秩rr,这在实际应用中不可达。
  • 需要计算矩阵除法(逆矩阵(M^TA11N^)1(\hat M^T A_{11}\hat N)^{-1}),当矩阵近似奇异或未知矩阵秩rr时存在精度问题。

# 未知秩rr

下面给出矩阵秩rr的估计r^\hat r

  • A1A_{1\bullet}的列和A1A_{\bullet 1}的行进行旋转,将对A1A_{1\bullet}A1A_{\bullet 1}的有意义的因子移至前面。

    • A1A_{1\bullet}A1A_{\bullet 1}奇异值分解

      A1=U(1)Σ(1)V(1)A1=U(2)Σ(2)V(2)\begin{aligned} A_{\bullet 1} &= U^{(1)}\Sigma^{(1)} V^{(1)\intercal}\\ A_{1 \bullet} &= U^{(2)}\Sigma^{(2)}V^{(2)\intercal} \end{aligned}

    • 旋转后得到Z11,Z12,Z21Z_{11}, Z_{12}, Z_{21}

      Z11=U(2)A11V(1)Z12=U(2)A12Z21=A21V(1)Z22=A22\begin{aligned} Z_{11} &= {U^{(2)}}^\intercal A_{11}V^{(1)}\\ Z_{12} &= {U^{(2)}}^\intercal A_{12} \\ Z_{21} &= A_{21}V^{(1)}\\ Z_{22} &= A_{22} \end{aligned}

  • 若矩阵AA的秩为rr,则矩阵ZZ的第r+1r+1行和第r+1r+1列后面的元素都应该为0。一个秩rr近似矩阵Amax(r)A_{\max(r)}的自然想法就是删除矩阵ZZ子块矩阵元素非常小的若干行若干列。

  • 然而,当秩未知时,我们不清楚应该删除多少行多少列合适,因此可以尝试类似枚举法,一个一个试,保证

    • Z11,[1:r^,1:r^]Z_{11, [1:\hat r, 1:\hat r]}非奇异
    • Z21,[1:r^,1:r^]Z11,[1:r^,1:r^]1TR\|Z_{21,[1:\hat r, 1:\hat r]}Z_{11,[1:\hat r, 1:\hat r]}^{-1}\| \leq T_R,其中TRT_R是一个事先定义的标准
    • 找到满足上面两个要求的最大秩r^\hat r作为秩rr的估计。
  • 可用删除后的Z21,[:,1:r^],Z11,[1:r^,1:r^],Z12[1:r^,:]Z_{21,[:, 1:\hat r]},Z_{11,[1:\hat r, 1:\hat r]},Z_{12[1:\hat r, :]}来估计A22A_{22}

    A^22=Z21,[:,1:r^]Z11,[1:r^,1:r^]1Z12,[1:r^,:]\hat A_{22} = Z_{21,[:, 1:\hat r]}Z_{11, [1:\hat r, 1:\hat r]}^{-1}Z_{12, [1:\hat r, :]}

对应的算法如下:

注意:

  • Z21[:,1:r]Z_{21[:,1:r]}Z11,[1:r,1:r]Z_{11,[1:r,1:r]}分别近似于U21Σ1U_{21}\Sigma_1Σ1\Sigma_1
  • DR,s=Z21,[:,1:s]Z11,[1:s,1:s]1D_{R, s} = Z_{21, [:, 1:s]}Z_{11, [1:s, 1:s]}^{-1}
  • 用奇异性与范数估计秩:
    • s>rs > rZ21[:,1:s]Z_{21[:,1:s]}Z11,[1:s,1:s]Z_{11,[1:s,1:s]}近似奇异,因此DR,sD_{R,s}出现奇异或者无界的范数(singular or with unbounded norm)
    • s=rs = rZ11,[1:s,1:s]Z_{11, [1:s, 1:s]}非奇异,则DR,s\|D_{R, s}\|有界

# 小结

  • 该文章后面给出了两个算法的误差上、下界,补充文档给出详细的证明。

  • 后续还会再找一些张老师的文章看看,算法简单易懂,理论就比较难懂了。🙇

  • 文章还参考了一个外国友人做的slide[3],两个算法的截图来自于此。

# References


  1. Anru Zhang homepage: http://pages.stat.wisc.edu/~anruzhang/index.html (opens new window) ↩︎

  2. Cai T , Cai T T , Zhang A . Structured Matrix Completion with Applications to Genomic Data Integration[J]. Journal of the American Statal Association, 2016, 111(514):621. ↩︎

  3. slide: https://biostat.duke.edu/sites/biostat.duke.edu/files/Aaron Jones_Structured_Matrix_Completion.pdf (opens new window) ↩︎