搜索
您的当前位置:首页正文

常用的矩阵范数和矩阵导数

来源:好走旅游网

1.常用的矩阵范数

矩阵的 l r , p l_{r,p} lr,p范数定义为:

矩阵 S S S l 2 l_2 l2范数是所有元素的平方和再开方, l 2 l_2 l2范数可以防止过拟合,提升模型的泛化能力。 l 2 l_2 l2范数最小,会使矩阵中的每一个元素都很小,接近于0。与 l 1 l_1 l1范数不同, l 2 l_2 l2范数不会让元素等于0,而是接近0.

核范数为矩阵奇异值的和,用于约束低秩。因为 r a n k ( W ) rank(W) rank(W)是非凸的,故在优化中常使用其凸近似,也就是核范数。

2.标量函数对矩阵变量求导

定义:矩阵X,函数f(X)是以X为自变量的数量函数,定义f(X)对X的导数为

∂ t r ( Q T A Q ) ∂ Q = ( A + A T ) Q \frac{\partial tr(Q^{T}AQ)}{\partial Q}=(A+A^{T})Q Qtr(QTAQ)=(A+AT)Q

∂ t r ( Q A Q T ) ∂ Q = Q ( A + A T ) \frac{\partial tr(QAQ^{T})}{\partial Q}=Q(A+A^{T}) Qtr(QAQT)=Q(A+AT)

∂ t r ( A B ) ∂ A = ∂ t r ( B A ) ∂ A = B T \frac{\partial tr(AB)}{\partial A}=\frac{\partial tr(BA)}{\partial A}=B^{T} Atr(AB)=Atr(BA)=BT

∂ t r ( A A T ) ∂ A = 2 A \frac{\partial tr(AA^T)}{\partial A}=2A Atr(AAT)=2A , ∂ t r ( A 2 ) ∂ A = 2 A T \frac{\partial tr(A^2)}{\partial A}=2A^T Atr(A2)=2AT

∂ t r ( Q T A ) ∂ Q = ∂ t r ( A T Q ) ∂ Q = ∂ t r ( A Q T ) ∂ Q = A \frac{\partial tr(Q^{T}A)}{\partial Q}=\frac{\partial tr(A^{T}Q)}{\partial Q}=\frac{\partial tr(AQ^{T})}{\partial Q}=A Qtr(QTA)=Qtr(ATQ)=Qtr(AQT)=A

t r ( A B C ) = t r ( C A B ) = t r ( B C A ) tr(ABC)=tr(CAB)=tr(BCA) tr(ABC)=tr(CAB)=tr(BCA)

因篇幅问题不能全部显示,请点此查看更多更全内容

Top