-
如何理解先验概率与后验概率
$P(X=\textrm{玩lol})=0.6; P(X=\textrm{不玩lol})=0.4$,这个概率是统计得到的,即$X$的概率分布已知,我们称其为先验概率。……
最后算出的$P(X=\textrm{玩lol}|Y=男性)$称之为$X$的后验概率,即它获得是在观察到事件$Y$发生后得到的。
-
如何理解贝叶斯定理
$P(A{\mid}B)=\dfrac{P(B{\mid}A)P(A)}{P(B)}$
$\textrm{新信息出现之后A的概率}=\textrm{A概率}\times\textrm{新信息带来的调整}$
-
如何通俗地理解“最大似然估计法”?
……求最大似然估计的问题,就变成了求似然函数的极值。
-
交叉熵代价函数(作用及公式推导)
- 二次代价函数的不足
我们希望:ANN在训练时,如果预测值与实际值的误差越大,那么在反向传播训练的过程中,各种参数调整的幅度就要更大,从而使训练更快收敛。然而,如果使用二次代价函数训练ANN,看到的实际效果是,如果误差越大,参数调整的幅度可能更小,训练更缓慢。……直观上看,初始的误差越大,收敛得越缓慢。
- 交叉熵代价函数
$-\sum_{k=1}^{C}y_{k}\log(p_{k})$
$-\log(p_{y})$
当误差越大,梯度就越大,参数w调整得越快,训练速度也就越快。
-
Momentum and Weight Decay
Where $E(\omega)$ is the error function, $\omega$ is the vector of weights, $\eta$ is the learning rate,
-
Momentum $\alpha$ is used to diminish the fluctuations in weight changes over consecutive iterations:
$\Delta{\omega_i(t+1)}=-\eta\dfrac{\partial E}{\partial \omega_i}+\alpha\Delta{\omega_i}(t)$
-
Weight decay $\lambda$ penalizes the weight changes:
$\Delta{\omega_i(t+1)}=-\eta\dfrac{\partial E}{\partial \omega_i}-\lambda\eta{\omega_i}(t)$
注意的$\omega_i$没有$\Delta$
where $\Delta\omega$ is also called velocity $v$.
-
如何理解矩阵特征值
-
Lagrange Duality 拉格朗日对偶
-
KKT
\begin{array}{l}
\textrm{minimize} && {f} \newline
\textrm{subject to} && {g_{i}=0, i=1,2, \cdots, n} \newline
&& {h_{i} \leq 0, i=1,2, \cdots, n}
\end{array}
-
Covariance Matrix 协方差矩阵