矩阵的
l
r
,
p
l_{r,p}
lr,p范数定义为:
矩阵 S S S的 l 2 l_2 l2范数是所有元素的平方和再开方, l 2 l_2 l2范数可以防止过拟合,提升模型的泛化能力。 l 2 l_2 l2范数最小,会使矩阵中的每一个元素都很小,接近于0。与 l 1 l_1 l1范数不同, l 2 l_2 l2范数不会让元素等于0,而是接近0.
核范数为矩阵奇异值的和,用于约束低秩。因为 r a n k ( W ) rank(W) rank(W)是非凸的,故在优化中常使用其凸近似,也就是核范数。
定义:矩阵X,函数f(X)是以X为自变量的数量函数,定义f(X)对X的导数为
∂ t r ( Q T A Q ) ∂ Q = ( A + A T ) Q \frac{\partial tr(Q^{T}AQ)}{\partial Q}=(A+A^{T})Q ∂Q∂tr(QTAQ)=(A+AT)Q
∂ t r ( Q A Q T ) ∂ Q = Q ( A + A T ) \frac{\partial tr(QAQ^{T})}{\partial Q}=Q(A+A^{T}) ∂Q∂tr(QAQT)=Q(A+AT)
∂ t r ( A B ) ∂ A = ∂ t r ( B A ) ∂ A = B T \frac{\partial tr(AB)}{\partial A}=\frac{\partial tr(BA)}{\partial A}=B^{T} ∂A∂tr(AB)=∂A∂tr(BA)=BT
∂ t r ( A A T ) ∂ A = 2 A \frac{\partial tr(AA^T)}{\partial A}=2A ∂A∂tr(AAT)=2A , ∂ t r ( A 2 ) ∂ A = 2 A T \frac{\partial tr(A^2)}{\partial A}=2A^T ∂A∂tr(A2)=2AT
∂ t r ( Q T A ) ∂ Q = ∂ t r ( A T Q ) ∂ Q = ∂ t r ( A Q T ) ∂ Q = A \frac{\partial tr(Q^{T}A)}{\partial Q}=\frac{\partial tr(A^{T}Q)}{\partial Q}=\frac{\partial tr(AQ^{T})}{\partial Q}=A ∂Q∂tr(QTA)=∂Q∂tr(ATQ)=∂Q∂tr(AQT)=A
t
r
(
A
B
C
)
=
t
r
(
C
A
B
)
=
t
r
(
B
C
A
)
tr(ABC)=tr(CAB)=tr(BCA)
tr(ABC)=tr(CAB)=tr(BCA)
因篇幅问题不能全部显示,请点此查看更多更全内容