Notes

  • 如何理解先验概率与后验概率
    $P(X=\textrm{玩lol})=0.6; P(X=\textrm{不玩lol})=0.4$,这个概率是统计得到的,即$X$的概率分布已知,我们称其为先验概率。……
    最后算出的$P(X=\textrm{玩lol}|Y=男性)$称之为$X$的后验概率,即它获得是在观察到事件$Y$发生后得到的。
  • 如何理解贝叶斯定理
    $P(A{\mid}B)=\dfrac{P(B{\mid}A)P(A)}{P(B)}$
    $\textrm{新信息出现之后A的概率}=\textrm{A概率}\times\textrm{新信息带来的调整}$
  • 如何通俗地理解“最大似然估计法”?
    ……求最大似然估计的问题,就变成了求似然函数的极值。
  • 交叉熵代价函数(作用及公式推导)
    1. 二次代价函数的不足
      我们希望:ANN在训练时,如果预测值与实际值的误差越大,那么在反向传播训练的过程中,各种参数调整的幅度就要更大,从而使训练更快收敛。然而,如果使用二次代价函数训练ANN,看到的实际效果是,如果误差越大,参数调整的幅度可能更小,训练更缓慢。……直观上看,初始的误差越大,收敛得越缓慢。
    2. 交叉熵代价函数
      $-\sum_{k=1}^{C}y_{k}\log(p_{k})$
      $-\log(p_{y})$
      当误差越大,梯度就越大,参数w调整得越快,训练速度也就越快。
  • Momentum and Weight Decay
    Where $E(\omega)$ is the error function, $\omega$ is the vector of weights, $\eta$ is the learning rate,
    1. Momentum $\alpha$ is used to diminish the fluctuations in weight changes over consecutive iterations:
      $\Delta{\omega_i(t+1)}=-\eta\dfrac{\partial E}{\partial \omega_i}+\alpha\Delta{\omega_i}(t)$
    2. Weight decay $\lambda$ penalizes the weight changes:
      $\Delta{\omega_i(t+1)}=-\eta\dfrac{\partial E}{\partial \omega_i}-\lambda\eta{\omega_i}(t)$
      注意的$\omega_i$没有$\Delta$
      where $\Delta\omega$ is also called velocity $v$.
  • 如何理解矩阵特征值
  • Lagrange Duality 拉格朗日对偶
  • KKT
    \begin{array}{l} \textrm{minimize} && {f} \newline \textrm{subject to} && {g_{i}=0, i=1,2, \cdots, n} \newline && {h_{i} \leq 0, i=1,2, \cdots, n} \end{array}
  • Covariance Matrix 协方差矩阵