# 写在前面

介绍共空间模式算法(Common Spatial Patterns),本文主要参考了slide[1]

# 脑机接口

使用仪器收集脑电信号并进行信号分类,里面包含一系列信号处理技术,这里只介绍信号分类的关键步骤。

# EEG信号采样

多通道、非平稳的EEG信号数学表示为

{En}n=1NRch×time\{E_n\}_{n=1}^{N} \in \mathbb{R}^{ch\times time}

信号本身核采集过程中包含大量噪声以及无意义的信息,因此下一步就是提取出有甄别信息的特征。

p.s. 通道数与传感器个数有关,早期脑机接口是侵入式的,给瘫痪病人用的,现在是头戴式,不过受试者收集信号都说累(需要注意力高度集中),以后应该就是多维度(EEG、眼动式、语音等信息融合)(?大胆猜测)

# 特征提取

下面就要完成信号到特征的转化

{En}n=1NRch×timexnRd\{E_n\}_{n=1}^{N} \in \mathbb{R}^{ch\times time} \to x_n \in \mathbb{R}^d

  • 带宽滤波器:选择合适的带宽(如7-30Hz或10-40Hz)来降噪并提取有利于分类的最佳频率,这一步是通过长期经验来确定的。
  • 空间滤波器:选择重要的通道信号来完成分类,共空间模式算法是一种典型的空间滤波器。

# 线性判别分析

上一步从训练集得到的特征通过监督(或半监督)算法训练分类器(分类参数),训练完成后可直接用于测试集。

下面介绍一种经典的监督分类算法——线性判别分析,它是基于各模式的类间散度和类内散度所构成广义瑞利商的最大化来求得最优超平面。我们知道,空间样本点在不同的投影下的投影点具有不同的离散程度

为了让投影点更好的区分开来,我们期望

  • 同类投影点尽可能接近
  • 异类投影点尽可能远离

那么两者需要量化。

  • 同类投影点尽可能接近:投影范围内的最大距离ss尽可能小
  • 异类投影点尽可能远离:两类投影有明显的间隔,则均值点间的距离Δm\Delta m尽可能大

一小一大,自然联想到构造瑞利商形式的目标函数

maxwJ(w)=(m1m2)2s1+s2\max_w J(w) = \frac{(m_1 -m_2)^2}{s_1+s_2}

(m1m2)2=(wTμ1wTμ2)(wTμ1wTμ2)T=wT(μ1μ2)(μ1μ2)Tw=wTSBws1+s2=wTΣ1w+wTΣ2w=wT(Σ1+Σ2)w=wTSWw\begin{aligned} \left(m_{1}-m_{2}\right)^{2}=&\left(\boldsymbol{w}^{T} \boldsymbol{\mu}_{1}-\boldsymbol{w}^{T} \boldsymbol{\mu}_{2}\right)\left(\boldsymbol{w}^{T} \boldsymbol{\mu}_{1}-\boldsymbol{w}^{T} \boldsymbol{\mu}_{2}\right)^{T} \\ =& \boldsymbol{w}^{T}\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)^{T} \boldsymbol{w}=\boldsymbol{w}^{T} \boldsymbol{S}_{B} \boldsymbol{w} \\ s_{1}+s_{2} &=\boldsymbol{w}^{T} \boldsymbol{\Sigma}_{1} \boldsymbol{w}+\boldsymbol{w}^{T} \boldsymbol{\Sigma}_{2} \boldsymbol{w} \\ &=\boldsymbol{w}^{T}\left(\boldsymbol{\Sigma}_{1}+\boldsymbol{\Sigma}_{2}\right) \boldsymbol{w}=\boldsymbol{w}^{T} \boldsymbol{S}_{W} \boldsymbol{w} \end{aligned}

目标函数等价为

maxwJ(w)=wTSBwwTSWw\max_w J^\prime(w) =\frac{w^T \boldsymbol S_B w}{w^T \boldsymbol S_W w}

分子分母均为ww的二项式,w^\hat w与长度无关,仅与方向有关,即J(w)=J(kw)kJ(w) = J(kw)\quad\forall k,因此设wTSWw=1w^T \boldsymbol S_W w= 1,则

minwwTSBws.t.wTSWw=1\min_w - w^T \boldsymbol S_B w \quad\text{s.t.} \quad w^T \boldsymbol S_W w = 1

构造拉格朗日函数

L(w,λ)=wTSBw+λ(wTSWw1)L(w,\lambda) = - w^T \boldsymbol S_B w + \lambda(w^T \boldsymbol S_W w - 1)

函数对ww求偏导并设为00可得到最优解条件

SBw=λSWw\boldsymbol S_B w = \lambda \boldsymbol S_W w

其中SWw\boldsymbol S_W wμ1μ2\mu_1 - \mu_2平行,因此最优解为

w^SW1(μ1μ2)\hat w \propto\boldsymbol S_W^{-1}(\mu_1 - \mu_2)

对任意样本点xx(包括测试集和训练集),我们只需对投影点设置一个合适的阈值予以区分,例如取两中心的平均值z0=m1+m22z_0 = \frac{m_1 + m_2}{2},靠近哪个中心的划为哪类。

# 共空间模式算法

共空间模式算作为一种空间滤波器,其目的与线性判别分析类似,即期望通过投影将不同类别的分布尽可能区分开来,其解释如下[2]

CSP FILTERS MAXIMIZE THE VARIANCE OF THE SPATIALLY FILTERED SIGNAL UNDER ONE CONDITION WHILE MINIMIZING IT FOR THE OTHER CONDITION.

对收集到的信号EE,通过投影得到S=wTES = w^TE,则CSP的目标函数为

maxwJ(w)=wT(Σ1Σ2)wwT(Σ1+Σ2)w\max_w J(w) =\frac{w^T (\Sigma_1 - \Sigma_2) w}{w^T (\Sigma_1 + \Sigma_2) w}

  • Σ1Σ2\Sigma_1 - \Sigma_2discriminative activity 有利于分类的特征
  • Σ1+Σ2\Sigma_1 + \Sigma_2common activity 属于不感兴趣的信息

从瑞利商角度,该目标存在如下等价形式

maxwJ(w)=wTΣ1wwTΣ2w\max_w J^\prime(w) =\frac{w^T \Sigma_1 w}{w^T \Sigma_2 w}

该问题与线性判别分析的求解步骤一致,可转化为一个特征值问题

Σ21Σ1w=λw\Sigma_2^{-1}\Sigma_1 w=\lambda w

CSP问题也可等价为矩阵形式

maxWtr(WTΣ1W)s.t.WT(Σ1+Σ2)W=I\max_W \text{tr}(W^T \Sigma_1 W)\quad \text{s.t.} \quad W^T(\Sigma_1 + \Sigma_2)W = \boldsymbol{I}

该问题类似于矩阵的联合对角化问题(可参见白化变换Whitening),通过特征值分解可得

Σ1+Σ2=UDUTP=D12Σ^1=PΣ1PTΣ^2=PΣ2PT\begin{aligned} \Sigma_1 + \Sigma_2 &= UDU^T\\ P &= D^{-\frac{1}{2}}\\ \hat\Sigma_1 &= P\Sigma_1P^T\\ \hat\Sigma_2 &= P\Sigma_2P^T \end{aligned}

显然Σ^1+Σ^2=I\hat\Sigma_1 + \hat\Sigma_2 = \boldsymbol{I},因此任意正交阵VV都可以保证VT(Σ^1+Σ^2)V=IV^T (\hat\Sigma_1 + \hat\Sigma_2) V = \boldsymbol{I},因此可将VV设为Σ^1\hat\Sigma_1的特征向量构成的酉阵

Σ^1=VΛVT\hat\Sigma_1 = V \boldsymbol{\Lambda} V^T

其中对角矩阵Λ\boldsymbol{\Lambda}由降序排列的特征值构成。CSP滤波器的投影矩阵为

W=PTVW = P^T V

两协方差投影后得到对角阵

WTΣ1W=Λ=(λ1λch)WTΣ2W=IΛ=(1λ11λch)\begin{array}{l} W^{T} {\Sigma}_{1} W=\boldsymbol{\Lambda}=\left(\begin{array}{ccc} \lambda_{1}&& \\ & \ddots & \\ & &\lambda_{ch} \end{array}\right) \\ W^{T} {\Sigma}_{2} W=\boldsymbol{I}-\boldsymbol{\Lambda}=\left(\begin{array}{cc} 1-\lambda_{1}&& \\ & \ddots & \\ & &1-\lambda_{ch} \end{array}\right) \end{array}

这表明投影WW提供了第一类协方差矩阵的最大方差λ1,,λch\lambda_1,\ldots,\lambda_{ch}(降序排列)和第二类协方差矩阵的最小方差1λ1,,1λch1-\lambda_1,\ldots,1-\lambda_{ch}(升序排列)。

# 正则化共空间模式

正则化,顾名思义,就是添加一些由先验信息或假设而产生的正则项,来改进或约束目标函数。[3]

  • 协方差矩阵的正则化

由于噪声和小样本集的缘故,协方差矩阵的估计存在明显的误差,因此修正协方差矩阵非常有必要。

Cc~=(1γ)[(1β)scCc+βGC]+γI\tilde{C_c} = (1-\gamma)\left[(1-\beta)s_cC_c+\beta G_C \right]+\gamma I

其中CcC_c是协方差矩阵,II表示单位阵,GcG_c表示通常的协方差,这让我想起团长里面的话

我想让事情是它该有的样子

  • 目标函数的正则化

对目标函数增加正则项可以惩罚不满足先验信息的空间滤波器

maxwJP1(w)=wTΣ1wwTΣ2w+αP(w)\max_w J_{P_1}(w) =\frac{w^T \Sigma_1 w}{w^T \Sigma_2 w + \alpha P(w)}

一些简单的先验信息都可以通过二次惩罚项表示,即设置P(w)=wK2=wTKwP(w) = \|w\|_K^2 = w^TKw。需要注意的是,CSP算法可同时满足:

  • 最大化Σ1\Sigma_1而最小化Σ2\Sigma_2
  • 最大化Σ2\Sigma_2而最小化Σ1\Sigma_1

为此还需考虑对立问题

maxwJP2(w)=wTΣ2wwTΣ1w+αP(w)\max_w J_{P_2}(w) =\frac{w^T \Sigma_2 w}{w^T \Sigma_1 w + \alpha P(w)}

因此滤波器由(Σ2+αK)1Σ1(\Sigma_2 + \alpha K)^{-1}\Sigma_1(Σ1+αK)1Σ2(\Sigma_1 + \alpha K)^{-1}\Sigma_2的若干个最大特征值对应的特征向量组成。

# 黎曼流形的几何解释

首先给出CSP的联合对角化的求解算法流程(Σ2,Σ1\Sigma_2,\Sigma_1P1,P2P_1,P_2代替)

通常选取J(<N)J(<N)个特征向量作为投影矩阵,滤波后信号的对数方差(log variance)作为特征的一种选择

FX=(log(var(w1TX))log(var(wJTX)))\begin{array}{l} F_X=\left(\begin{array}{c} \log(\text{var}(w_1^T X)) \\ \vdots \\ \log(\text{var}(w_J^T X)) \end{array}\right) \end{array}

引入一些常见的微分几何的概念(主要服务于计算距离和几何均值),利用酉变换不变性的性质给空间滤波器赋予几何解释。回到CSP算法最后求解的特征分解问题

(Σ1+Σ2)1Σ1wj=λjwj(\Sigma_1 + \Sigma_2)^{-1}\Sigma_1 w_j= \lambda_j w_j

联合对角化的结果表明

WTΣ1W=Λ,WTΣ2W=IΛW^{T} {\Sigma}_{1} W=\boldsymbol{\Lambda}, W^{T} {\Sigma}_{2} W=\boldsymbol{I}-\boldsymbol{\Lambda}

而两协方差Σ1,Σ2\Sigma_1,\Sigma_2间的黎曼距离与CSP的投影特征值产生关联

δR(Σ1,Σ2)=δR(WTΣ1W,WTΣ2W)=δR(Λ,IΛ)=jlog2(λj1λj)=dR2\begin{aligned} \delta_R (\Sigma_1, \Sigma_2) &= \delta_R (W^T\Sigma_1 W, W^T \Sigma_2 W) \\ &= \delta_R (\boldsymbol{\Lambda}, \boldsymbol{I}-\boldsymbol{\Lambda}) \\ &= \sqrt{\sum_j\log^2(\frac{\lambda_j}{1-\lambda_j})}\\ &= \|d_R\|_2 \end{aligned}

其中记(dR)j=log(λj1λj)(d_R)_j = |\log(\frac{\lambda_j}{1-\lambda_j})|

对于特征提取的几何解释,使用测试样本协方差PXP_X,通过WW可近似对角化PZP_Z,其对角线元素近似DZ=diag(diag(PZ))D_Z = \text{diag}(\text{diag}(P_Z))代替可得到黎曼距离的近似

δR(Σ1,ΣX)=δR(WTΣ1W,WTΣXW)=δR(Λ,PZ)δR(Λ,DZ)\begin{aligned} \delta_R (\Sigma_1, \Sigma_X) &= \delta_R (W^T\Sigma_1 W, W^T \Sigma_X W) \\ &= \delta_R (\boldsymbol{\Lambda}, P_Z) \\ &\simeq \delta_R (\boldsymbol{\Lambda}, D_Z) \\ \end{aligned}

对投影向量的方差取对数得到的特征向量FXF_X与黎曼距离存在近似联系

δR(Σ1,ΣX)FXF12\delta_R (\Sigma_1, \Sigma_X) \simeq \|F_X - F_1\|_2

CSP的黎曼距离代表欧式特征空间中欧式距离的近似。 因此,基于黎曼距离的空间滤波器选择可隐式确保特征空间中类的最大可分离性。[4]

# 参考文献


  1. Introduction to Common Spatial Pattern Filters for EEG Motor Imagery Classification (opens new window) ↩︎

  2. Blankertz B, Tomioka R, Lemm S, et al. Optimizing Spatial filters for Robust EEG Single-Trial Analysis[J]. IEEE Signal Processing Magazine, 2008, 25(1): 41-56. ↩︎

  3. Lotte F, Guan C. Regularizing Common Spatial Patterns to Improve BCI Designs: Unified Theory and New Algorithms[J]. IEEE Transactions on Biomedical Engineering, 2011, 58(2): 355-362. ↩︎

  4. A. Barachant, S. Bonnet, M. Congedo and C. Jutten, "Common Spatial Pattern revisited by Riemannian geometry," 2010 IEEE International Workshop on Multimedia Signal Processing, Saint Malo, 2010, pp. 472-476. ↩︎