Hiroki Naganuma

IFT 6135

https://sites.google.com/mila.quebec/ift6135-a2024/course-description

IFT6135-H2019 試験解答

第1問 ○×問題(各2点、計30点)

番号 要旨 解答
(a) NN容量↑で訓練誤差↑
(b) データ数↑で訓練-汎化誤差差↓
(c) Conv(32×32, kernel=3×4, stride=2) → 15×15
(d) RMSPropはmomentum使用
(e) Adamは2次モーメント推定
(f) BatchNormではweight decay無意味
(g) ELBO最大化 ≡ KL(q‖p(z))最小化
(h) PixelCNNは並列化可
(i) 再パラメータ化はバイアス低減目的
(j) Softmaxは定数シフト不変
(k) IWAE境界はELBOよりタイト
(l) GAN識別器は真の密度に一致
(m) 支持集合disjointでJS距離は$\log 2$
(n) WGANは生成器を1-Lipschitz制約
(o) 敵対的サンプルはGAN生成例を指す

第2問 短答問題(各2点、計20点)

  1. 過学習は訓練誤差低いが検証誤差が高い場合に判断。

  2. 反復回数増加 → 有効容量増加。

  3. AdaGradは過去全体の勾配累積、RMSPropは指数移動平均。

  4. 早期終了 ≈ L2正則化(リッジ回帰)。

  5. フル畳み込み [1,2,3]*[1,0,1]: \([1,2,4,2,3]\)

  6. バリッド畳み込み [1,2,3]*[1,0,1]: \([4]\)

  7. BatchNorm前活性: \(a^{\mathrm{BN}} = \gamma \frac{a - \mu_B}{\sqrt{\sigma_B^2+\varepsilon}} + \beta\)

  8. BERT自己教師タスク:
    • Masked Language Modeling
    • Next Sentence Prediction
  9. 収縮オートエンコーダの損失: \(\mathcal{L}(x)=\|x-g(f(x))\|_2^2+\lambda\left\|\frac{\partial f(x)}{\partial x}\right\|_F^2\)

  10. メタ学習評価: 未知タスクのsupport/queryセットで精度測定し平均。

第3問 Softmaxと勾配(計10点)

(a) Softmax勾配: \(\nabla_u \log S(x(u))_i = \nabla_u x_i - \mathbb{E}_{j\sim S}[\nabla_u x_j]\)

(b) 交差エントロピー勾配: \(\nabla_u L = \sum_i (y_i - c_i)\nabla_u x_i\)


第4問 RNNの勾配(計20点)

(a) 計算グラフ (t=1-3): \(x_t, h_{t-1} \rightarrow [Wx_t+Uh_{t-1}] \rightarrow \sigma \rightarrow h_t \rightarrow v^\top h_t \rightarrow y_t \rightarrow L_t\)

(b) 再帰的勾配式: \(\nabla_{h_t}L = 2(y_t - z_t)v + U^\top \mathrm{diag}[\sigma'(a_{t+1})]\nabla_{h_{t+1}}L\)

(c) 入力$x_t$による偏微分: \(\frac{\partial y_t}{\partial x_t}=v^\top \mathrm{diag}[\sigma'(a_t)] W\)

(d) 各パラメータの勾配: \(\begin{aligned} \nabla_v L &=\sum_t [2(y_t - z_t)h_t + 2(\nabla_{x_t}y_t)^\top\frac{\partial(\nabla_{x_t}y_t)}{\partial v}]\\ \nabla_W L &=\sum_t[(\nabla_{h_t}L\odot\sigma'(a_t))x_t^\top + 2(\nabla_{x_t}y_t)^\top\frac{\partial(\nabla_{x_t}y_t)}{\partial W}]\\ \nabla_U L &=\sum_t[(\nabla_{h_t}L\odot\sigma'(a_t))h_{t-1}^\top] \end{aligned}\)


第5問 VAEとELBO(計20点)

(a) ELBO分解: \(\log p_\theta(x)=\mathcal{L}[q_\phi](x)+\mathrm{KL}(q_\phi(z|x)||p_\theta(z|x))\)

(b) 変分ギャップの分解: \(\mathrm{KL}(q_\phi||p)=\mathrm{KL}(q^*||p)+\mathrm{KL}(q_\phi||q^*)\)

(c) 近似ギャップ縮小策:

(d) ギャップ推定 (Importance Sampling): \(\widehat{\log p_\theta(x)}=\log\frac{1}{K}\sum_{k=1}^{K}\frac{p_\theta(x,z^{(k)})}{q_\phi(z^{(k)}|x)}\)