https://sites.google.com/mila.quebec/ift6135-a2024/course-description
| 番号 | 要旨 | 解答 |
|---|---|---|
| (a) | NN容量↑で訓練誤差↑ | ❌ |
| (b) | データ数↑で訓練-汎化誤差差↓ | ✅ |
| (c) | Conv(32×32, kernel=3×4, stride=2) → 15×15 | ✅ |
| (d) | RMSPropはmomentum使用 | ❌ |
| (e) | Adamは2次モーメント推定 | ✅ |
| (f) | BatchNormではweight decay無意味 | ❌ |
| (g) | ELBO最大化 ≡ KL(q‖p(z))最小化 | ❌ |
| (h) | PixelCNNは並列化可 | ✅ |
| (i) | 再パラメータ化はバイアス低減目的 | ❌ |
| (j) | Softmaxは定数シフト不変 | ✅ |
| (k) | IWAE境界はELBOよりタイト | ✅ |
| (l) | GAN識別器は真の密度に一致 | ❌ |
| (m) | 支持集合disjointでJS距離は$\log 2$ | ✅ |
| (n) | WGANは生成器を1-Lipschitz制約 | ❌ |
| (o) | 敵対的サンプルはGAN生成例を指す | ❌ |
過学習は訓練誤差低いが検証誤差が高い場合に判断。
反復回数増加 → 有効容量増加。
AdaGradは過去全体の勾配累積、RMSPropは指数移動平均。
早期終了 ≈ L2正則化(リッジ回帰)。
フル畳み込み [1,2,3]*[1,0,1]:
\([1,2,4,2,3]\)
バリッド畳み込み [1,2,3]*[1,0,1]:
\([4]\)
BatchNorm前活性: \(a^{\mathrm{BN}} = \gamma \frac{a - \mu_B}{\sqrt{\sigma_B^2+\varepsilon}} + \beta\)
収縮オートエンコーダの損失: \(\mathcal{L}(x)=\|x-g(f(x))\|_2^2+\lambda\left\|\frac{\partial f(x)}{\partial x}\right\|_F^2\)
(a) Softmax勾配: \(\nabla_u \log S(x(u))_i = \nabla_u x_i - \mathbb{E}_{j\sim S}[\nabla_u x_j]\)
(b) 交差エントロピー勾配: \(\nabla_u L = \sum_i (y_i - c_i)\nabla_u x_i\)
(a) 計算グラフ (t=1-3): \(x_t, h_{t-1} \rightarrow [Wx_t+Uh_{t-1}] \rightarrow \sigma \rightarrow h_t \rightarrow v^\top h_t \rightarrow y_t \rightarrow L_t\)
(b) 再帰的勾配式: \(\nabla_{h_t}L = 2(y_t - z_t)v + U^\top \mathrm{diag}[\sigma'(a_{t+1})]\nabla_{h_{t+1}}L\)
(c) 入力$x_t$による偏微分: \(\frac{\partial y_t}{\partial x_t}=v^\top \mathrm{diag}[\sigma'(a_t)] W\)
(d) 各パラメータの勾配: \(\begin{aligned} \nabla_v L &=\sum_t [2(y_t - z_t)h_t + 2(\nabla_{x_t}y_t)^\top\frac{\partial(\nabla_{x_t}y_t)}{\partial v}]\\ \nabla_W L &=\sum_t[(\nabla_{h_t}L\odot\sigma'(a_t))x_t^\top + 2(\nabla_{x_t}y_t)^\top\frac{\partial(\nabla_{x_t}y_t)}{\partial W}]\\ \nabla_U L &=\sum_t[(\nabla_{h_t}L\odot\sigma'(a_t))h_{t-1}^\top] \end{aligned}\)
(a) ELBO分解: \(\log p_\theta(x)=\mathcal{L}[q_\phi](x)+\mathrm{KL}(q_\phi(z|x)||p_\theta(z|x))\)
(b) 変分ギャップの分解: \(\mathrm{KL}(q_\phi||p)=\mathrm{KL}(q^*||p)+\mathrm{KL}(q_\phi||q^*)\)
(c) 近似ギャップ縮小策:
(d) ギャップ推定 (Importance Sampling): \(\widehat{\log p_\theta(x)}=\log\frac{1}{K}\sum_{k=1}^{K}\frac{p_\theta(x,z^{(k)})}{q_\phi(z^{(k)}|x)}\)