Hiroki Naganuma

IFT 6135

https://sites.google.com/mila.quebec/ift6135-a2024/course-description

IFT6135-H2019 試験解答

第1問 ○×問題（各2点、計30点）

番号	要旨	解答
(a)	NN容量↑で訓練誤差↑	❌
(b)	データ数↑で訓練-汎化誤差差↓	✅
(c)	Conv(32×32, kernel=3×4, stride=2) → 15×15	✅
(d)	RMSPropはmomentum使用	❌
(e)	Adamは2次モーメント推定	✅
(f)	BatchNormではweight decay無意味	❌
(g)	ELBO最大化 ≡ KL(q‖p(z))最小化	❌
(h)	PixelCNNは並列化可	✅
(i)	再パラメータ化はバイアス低減目的	❌
(j)	Softmaxは定数シフト不変	✅
(k)	IWAE境界はELBOよりタイト	✅
(l)	GAN識別器は真の密度に一致	❌
(m)	支持集合disjointでJS距離は$\log 2$	✅
(n)	WGANは生成器を1-Lipschitz制約	❌
(o)	敵対的サンプルはGAN生成例を指す	❌

第2問短答問題（各2点、計20点）

過学習は訓練誤差低いが検証誤差が高い場合に判断。
反復回数増加 → 有効容量増加。
AdaGradは過去全体の勾配累積、RMSPropは指数移動平均。
早期終了 ≈ L2正則化（リッジ回帰）。
フル畳み込み [1,2,3]*[1,0,1]: $[1,2,4,2,3]$
バリッド畳み込み [1,2,3]*[1,0,1]: $[4]$
BatchNorm前活性: $a^{\mathrm{BN}} = \gamma \frac{a - \mu_B}{\sqrt{\sigma_B^2+\varepsilon}} + \beta$
BERT自己教師タスク:
- Masked Language Modeling
- Next Sentence Prediction
収縮オートエンコーダの損失: $\mathcal{L}(x)=\|x-g(f(x))\|_2^2+\lambda\left\|\frac{\partial f(x)}{\partial x}\right\|_F^2$
メタ学習評価: 未知タスクのsupport/queryセットで精度測定し平均。

第3問 Softmaxと勾配（計10点）

(a) Softmax勾配: $\nabla_u \log S(x(u))_i = \nabla_u x_i - \mathbb{E}_{j\sim S}[\nabla_u x_j]$

(b) 交差エントロピー勾配: $\nabla_u L = \sum_i (y_i - c_i)\nabla_u x_i$

第4問 RNNの勾配（計20点）

(a) 計算グラフ (t=1-3): $x_t, h_{t-1} \rightarrow [Wx_t+Uh_{t-1}] \rightarrow \sigma \rightarrow h_t \rightarrow v^\top h_t \rightarrow y_t \rightarrow L_t$

(b) 再帰的勾配式: $\nabla_{h_t}L = 2(y_t - z_t)v + U^\top \mathrm{diag}[\sigma'(a_{t+1})]\nabla_{h_{t+1}}L$

(d) 各パラメータの勾配: $\begin{aligned} \nabla_v L &=\sum_t [2(y_t - z_t)h_t + 2(\nabla_{x_t}y_t)^\top\frac{\partial(\nabla_{x_t}y_t)}{\partial v}]\\ \nabla_W L &=\sum_t[(\nabla_{h_t}L\odot\sigma'(a_t))x_t^\top + 2(\nabla_{x_t}y_t)^\top\frac{\partial(\nabla_{x_t}y_t)}{\partial W}]\\ \nabla_U L &=\sum_t[(\nabla_{h_t}L\odot\sigma'(a_t))h_{t-1}^\top] \end{aligned}$

第5問 VAEとELBO（計20点）

(a) ELBO分解: $\log p_\theta(x)=\mathcal{L}[q_\phi](x)+\mathrm{KL}(q_\phi(z|x)||p_\theta(z|x))$

(b) 変分ギャップの分解: $\mathrm{KL}(q_\phi||p)=\mathrm{KL}(q^*||p)+\mathrm{KL}(q_\phi||q^*)$

前者：近似ギャップ
後者：アモーティゼーションギャップ

より柔軟な後部分布（正規化フローなど）を採用。

(d) ギャップ推定 (Importance Sampling): $\widehat{\log p_\theta(x)}=\log\frac{1}{K}\sum_{k=1}^{K}\frac{p_\theta(x,z^{(k)})}{q_\phi(z^{(k)}|x)}$