Notes

Reflection

2019-02-16

如何理解先验概率与后验概率
$P(X=\textrm{玩lol})=0.6; P(X=\textrm{不玩lol})=0.4$，这个概率是统计得到的，即$X$的概率分布已知，我们称其为先验概率。……

最后算出的$P(X=\textrm{玩lol}|Y=男性)$称之为$X$的后验概率，即它获得是在观察到事件$Y$发生后得到的。
如何理解贝叶斯定理
$P(A{\mid}B)=\dfrac{P(B{\mid}A)P(A)}{P(B)}$

$\textrm{新信息出现之后A的概率}=\textrm{A概率}\times\textrm{新信息带来的调整}$
如何通俗地理解“最大似然估计法”?
……求最大似然估计的问题，就变成了求似然函数的极值。
交叉熵代价函数（作用及公式推导）
1. 二次代价函数的不足
  我们希望：ANN在训练时，如果预测值与实际值的误差越大，那么在反向传播训练的过程中，各种参数调整的幅度就要更大，从而使训练更快收敛。然而，如果使用二次代价函数训练ANN，看到的实际效果是，如果误差越大，参数调整的幅度可能更小，训练更缓慢。……直观上看，初始的误差越大，收敛得越缓慢。
2. 交叉熵代价函数
  $-\sum_{k=1}^{C}y_{k}\log(p_{k})$
  
  $-\log(p_{y})$
  
  当误差越大，梯度就越大，参数w调整得越快，训练速度也就越快。
Momentum and Weight Decay
Where $E(\omega)$ is the error function, $\omega$ is the vector of weights, $\eta$ is the learning rate,
1. Momentum $\alpha$ is used to diminish the fluctuations in weight changes over consecutive iterations:
  $\Delta{\omega_i(t+1)}=-\eta\dfrac{\partial E}{\partial \omega_i}+\alpha\Delta{\omega_i}(t)$
2. Weight decay $\lambda$ penalizes the weight changes:
  $\Delta{\omega_i(t+1)}=-\eta\dfrac{\partial E}{\partial \omega_i}-\lambda\eta{\omega_i}(t)$
  注意的$\omega_i$没有$\Delta$
  where $\Delta\omega$ is also called velocity $v$.
如何理解矩阵特征值
Lagrange Duality 拉格朗日对偶
KKT
\begin{array}{l} \textrm{minimize} && {f} \newline \textrm{subject to} && {g_{i}=0, i=1,2, \cdots, n} \newline && {h_{i} \leq 0, i=1,2, \cdots, n} \end{array}
Covariance Matrix 协方差矩阵