NYU Lecture is really useful https://atcold.github.io/pytorch-Deep-Learning/
Describe a scheme to estimate the vector of parameters θ to maximize the log likelihood of the N training examples.
識別モデル:データに対するクラスの条件付き確率(事後確率)p(Ck|x)を直接モデル化するのが識別モデル
生成モデル:p(Ck|x) = p(x|Ck)p(Ck)/p(x) の右辺をモデル化する
Describe how the scheme should be modified if you are given a prior distribution on the model parameters, p(θ).
Describe the difference between a maximum a posteriori prediction and a full Bayesian prediction. Be as specific as possible.
ベイズ推論の枠組みで、デルタ関数を用いてMAPを記述する
最尤法で求めた分散は真の分散を過小評価している