Overview
Papers
- TLDR (JA):
- クロスエントロピー(CE)損失のさまざまなロジット調整パラメータ化が、ゼロの訓練誤差領域をはるかに超えたラベル不均衡データでの大規模モデルの訓練において、重み付けされたCEの代替手法として提案されている。
- これらの設計の背後にある原動力は、線形(化)モデルに対して、最適化経路でマイノリティに有利な解を生み出すための暗黙のバイアスを説明する暗黙のバイアス理論である。
- 非線形モデルにこの理論を拡張することを目指し、さまざまなCEパラメータ化で学習される分類器と埋め込みの暗黙の幾何学を調査している。
- 主な結果は、非凸コスト感度SVM分類器のグローバル最小値を特徴化するものであり、ディープネットの抽象化として機能する。
- クラス数、不均衡とマイノリティ比率、損失ハイパーパラメーターに応じた分類器と埋め込みの角度とノルムの閉形式の数式を導く。
- これを使用して、不均衡比率に関係なく、対称的な幾何学を学習するためにロジット調整パラメータ化を適切に調整できることを示す。
- 実験とディープネットの収束精度に関する実証的研究で分析を補完している。
- TLDR (EN):
- Various logit-adjusted parameterizations of cross-entropy (CE) loss proposed as alternatives to weighted CE for training large models on label-imbalanced data beyond zero train error regime.
- Implicit bias theory drives these designs, explaining induced bias on optimization path towards solutions favoring minorities for linear(ized) models.
- Aiming to extend this theory to non-linear models, the implicit geometry of classifiers and embeddings learned by different CE parameterizations is investigated.
- Main result characterizes global minimizers of a non-convex cost-sensitive SVM classifier for the unconstrained features model, serving as an abstraction of deep-nets.
- Closed-form formulas derived for angles and norms of classifiers and embeddings based on the number of classes, imbalance and minority ratios, and loss hyperparameters.
- Logit-adjusted parameterizations can be tuned to learn symmetric geometries irrespective of imbalance ratio, as shown using these formulas.
- Analysis complemented with experiments and an empirical study of convergence accuracy in deep-nets.
- TLDR(JA)
- エラー訂正符号(ECC)のコードワード対クラス割り当ての役割に焦点を当てた実証的研究。
- ECCの性能に対する割り当ての影響を評価するための実験設計と分析。
- ECCの性能を最適化するための割り当てスキームの探求。
- ECCアルゴリズムとデータセットを使った実験により、割り当ての選択が性能に大きな影響を与えることが示される。
- 最適な割り当てスキームを特定するためのヒューリスティック手法の開発。
- TLDR(EN)
- An empirical study focusing on the role of codeword-to-class assignments in Error Correcting Codes (ECC).
- Experimental design and analysis to evaluate the impact of assignments on the performance of ECC.
- Exploration of assignment schemes for optimizing the performance of ECC.
- Experiments with ECC algorithms and datasets show that the choice of assignment has a significant impact on performance.
- Development of heuristic approaches for identifying the optimal assignment schemes.
- TLDR(JA)
- ベイジアンニューラルネットワーク(BNN)において、全てのパラメータを確率的にする必要性を検討。
- パラメータの一部を決定論的にし、残りのパラメータを確率的にする混合アプローチの提案。
- 提案された混合アプローチの性能と計算効率を評価する実験。
- 完全な確率的アプローチと比較して、混合アプローチが同等の性能を達成しながら、計算効率を向上させることが示される。
- BNNの設計において、全てのパラメータを確率的にする必要はないことが示唆される。
- TLDR(EN)
- Investigating the necessity of making all parameters stochastic in Bayesian Neural Networks (BNNs).
- Proposing a mixed approach where some parameters are deterministic and the rest are stochastic.
- Conducting experiments to evaluate the performance and computational efficiency of the proposed mixed approach.
- Experiments show that the mixed approach improves computational efficiency while achieving equivalent performance compared to the fully stochastic approach.
- Suggesting that it is not necessary to make all parameters stochastic in the design of BNNs.
- TLDR(JA)
- テキスト生成における公平性を向上させるための相互情報量最小化手法を提案。
- 重要度サンプリングに基づく相互情報量最小化を活用し、生成モデルが敏感属性から独立になるように誘導。
- 提案手法の効果を評価する実験を実施し、生成されたテキストの公平性と多様性が向上することを確認。
- 既存の公平性に焦点を当てた手法と比較して、提案手法がより優れた結果を示すことが示される。
- TLDR(EN)
- Proposing a mutual information minimization approach for improving fairness in text generation.
- Utilizing mutual information minimization based on importance sampling to encourage generated models to be independent of sensitive attributes.
- Conducting experiments to evaluate the effectiveness of the proposed method, confirming that fairness and diversity of generated texts are improved.
- Demonstrating that the proposed method outperforms existing fairness-focused approaches.
- TLDR(JA)
- 欠損シフト下でのドメイン適応を扱う新しい手法を提案。
- ソースドメインとターゲットドメインのデータ欠損パターンが異なる状況に対応。
- 欠損データを扱うための一般的なアプローチである欠損値補完を利用し、ドメイン適応手法を改善。
- 提案手法の有効性を検証する実験を実施し、欠損シフト下でのドメイン適応問題に対する性能向上が確認される。
- さまざまな欠損パターンとドメイン適応タスクにおいて、提案手法が優れた性能を達成することが示される。
- TLDR(EN)
- Proposing a new method for domain adaptation under missingness shift.
- Addressing situations where data missingness patterns differ between source and target domains.
- Improving domain adaptation techniques using imputation, a common approach to handling missing data.
- Conducting experiments to validate the effectiveness of the proposed method, confirming performance improvements for domain adaptation problems under missingness shift.
- Demonstrating that the proposed method achieves superior performance in various missingness patterns and domain adaptation tasks.
- TLDR(JA)
- 偽の相関と特徴ノイズの下での証明可能な表現学習に向けた新しいアプローチを提案。
- 「フリーズしてから訓練」という2段階のプロセスを導入し、偽の相関を回避しながら適切な表現を学習する。
- 最初の段階でモデルを訓練し、特徴を凍結した後、第二段階で凍結された特徴を使ってモデルを再訓練。
- 提案手法の効果を確認するための実験を実施し、偽の相関と特徴ノイズの影響を軽減できることが示される。
- 提案手法が理論的に妥当であり、実践的にも有用であることが確認される。
- TLDR(EN)
- Proposing a new approach towards provable representation learning under spurious correlations and feature noise.
- Introducing a two-stage process called “freeze then train” to learn appropriate representations while avoiding spurious correlations.
- Training the model in the first stage, freezing features, and then retraining the model using the frozen features in the second stage.
- Conducting experiments to verify the effectiveness of the proposed method, demonstrating its ability to mitigate the impact of spurious correlations and feature noise.
- Confirming that the proposed method is theoretically sound and practically useful.
[Adapting to Latent Subgroup Shifts via Concepts and Proxies](
https://virtual.aistats.org/virtual/2023/poster/5823)
- TLDR(JA)
- 隠れたサブグループシフトへの適応を促す、概念とプロキシを用いた新しい手法を提案。
- 潜在的なサブグループ変数に基づいてデータが分布する問題に対処する。
- 既存のサンプルに基づく概念とプロキシの学習を利用し、新しいドメインでの性能を向上させる。
- 提案手法の有効性を検証する実験を実施し、潜在的なサブグループシフトに対処できることが示される。
- 提案手法が他のドメイン適応アプローチと比較して優れた性能を達成することが示される。
- TLDR(EN)
- Proposing a new method using concepts and proxies to promote adaptation to latent subgroup shifts.
- Addressing problems where data distributions are based on latent subgroup variables.
- Utilizing existing sample-based concept and proxy learning to improve performance in new domains.
- Conducting experiments to validate the effectiveness of the proposed method, demonstrating its ability to handle latent subgroup shifts.
- Demonstrating that the proposed method achieves superior performance compared to other domain adaptation approaches.
- TLDR(JA)
- ランダムに剪定されたニューラルネットワークのニューラル接線カーネル分析を提供。
- 剪定されたネットワークに対するニューラル接線カーネルの理論的な特性を解析。
- 剪定されたニューラルネットワークが、未剪定のネットワークと比較して学習能力を維持できる条件を明らかにする。
- 提案手法は、剪定後のニューラルネットワークが大域的な最適化と良好な汎化性能を達成できることを示す。
- 実験により、剪定されたニューラルネットワークの性能に対する提案手法の理論的な予測の妥当性が確認される。
- TLDR(EN)
- Providing a neural tangent kernel analysis of randomly pruned neural networks.
- Analyzing the theoretical properties of the neural tangent kernel for pruned networks.
- Revealing the conditions under which pruned neural networks can maintain their learning capacity compared to unpruned networks.
- The proposed method demonstrates that pruned neural networks can achieve global optimization and good generalization performance.
- Experiments confirm the validity of the theoretical predictions of the proposed method for the performance of pruned neural networks.
- TLDR(JA)
- 分散概念ドリフト下の連邦学習に対処する手法を提案。
- 時間とともにデータの分布が変化し、クライアント間で異なる概念ドリフトが生じる状況を扱う。
- クライアントごとに最適化されたモデルを維持し、分散概念ドリフトに適応するために、連邦学習アルゴリズムを改良。
- 提案手法は、変化するデータ分布に適応し、各クライアントに対して高い性能を提供することができることを示す。
- 実験により、提案手法が分散概念ドリフト下での連邦学習において優れた性能を達成することが確認される。
- TLDR(EN)
- Proposing a method to address federated learning under distributed concept drift.
- Dealing with situations where data distributions change over time and different concept drifts occur between clients.
- Improving the federated learning algorithm to maintain client-optimized models and adapt to distributed concept drift.
- The proposed method demonstrates the ability to adapt to changing data distributions and provide high performance for each client.
- Experiments confirm that the proposed method achieves superior performance in federated learning under distributed concept drift.
- TLDR(JA)
- 過剰パラメータ化されたモデルにおける不確実性定量化のダブルディセント現象を調査。
- モデルのパラメータ数が増加するにつれて、不確実性定量化の性能が最初に低下し、その後向上する現象を分析。
- ダブルディセント現象の発生原因として、過剰パラメータ化による不確実性定量化の潜在的な問題を特定。
- 提案手法は、過剰パラメータ化されたモデルの不確実性定量化の性能を改善するための新たな洞察を提供。
- 実験により、ダブルディセント現象が過剰パラメータ化されたモデルの不確実性定量化において確認される。
- TLDR(EN)
- Investigating the double-descent phenomenon in uncertainty quantification in overparametrized models.
- Analyzing the phenomenon where the performance of uncertainty quantification initially degrades and then improves as the number of model parameters increases.
- Identifying the potential issues in uncertainty quantification due to overparametrization as the cause of the double-descent phenomenon.
- The proposed method provides new insights to improve the performance of uncertainty quantification in overparametrized models.
- Experiments confirm the presence of the double-descent phenomenon in uncertainty quantification in overparametrized models.
- TLDR(JA)
- 説明方法におけるラベルリークの問題を調査し、定量的評価の重要性を強調。
- ラベルリークが説明方法の信頼性を低下させることを示す。
- 異なる説明方法に対するラベルリークの影響を比較し、適切な評価指標の選択を促す。
- 提案手法は、説明方法を選択する際のリスクを評価し、適切な評価基準を提案することで、説明方法の信頼性を向上させる。
- 実験により、ラベルリークが説明方法の性能に与える影響を明らかにし、定量的評価の重要性を確認する。
- TLDR(EN)
- Investigating the issue of label leakage in explanation methods and emphasizing the importance of their quantitative evaluation.
- Demonstrating that label leakage can degrade the reliability of explanation methods.
- Comparing the impact of label leakage on different explanation methods, encouraging the selection of appropriate evaluation metrics.
- The proposed method helps improve the reliability of explanation methods by evaluating risks when selecting them and proposing appropriate evaluation criteria.
- Experiments reveal the impact of label leakage on the performance of explanation methods and confirm the importance of quantitative evaluation.
- TLDR(JA)
- 過剰パラメータ化されたモデルに対するノイズ注入による明示的正則化手法を提案。
- 学習過程でノイズを注入することで、過剰パラメータ化モデルの汎化性能を向上させる。
- ノイズ注入により、モデルの複雑さを制御し、適切なバランスを維持することができる。
- 提案手法は、過剰パラメータ化されたモデルにおける過学習の問題に対処し、モデルの性能を向上させる。
- 実験により、ノイズ注入による明示的正則化が過剰パラメータ化されたモデルの汎化性能を向上させることが確認される。
- TLDR(EN)
- Proposing an explicit regularization method for overparametrized models through noise injection.
- Improving the generalization performance of overparametrized models by injecting noise during the learning process.
- Noise injection allows for controlling model complexity and maintaining an appropriate balance.
- The proposed method addresses the issue of overfitting in overparametrized models and improves their performance.
- Experiments confirm that explicit regularization through noise injection improves the generalization performance of overparametrized models.
- TLDR(JA)
- 共変量情報を用いた表現学習により、iVAE(implicit Variational Autoencoder)の事後分布の収束を防ぐ。
- 共変量情報を事前分布に組み込むことで、iVAEの事後分布の収束問題を緩和する。
- 提案手法は、表現学習を改善し、適切な情報を事後分布にキャプチャすることを可能にする。
- 実験により、共変量情報を用いた表現学習がiVAEの事後分布の収束問題を改善することが確認される。
- TLDR(EN)
- Preventing posterior collapse of iVAE (implicit Variational Autoencoder) through covariate-informed representation learning.
- Mitigating the collapse issue of iVAE’s posterior distribution by incorporating covariate information into the prior distribution.
- The proposed method improves representation learning and enables capturing appropriate information in the posterior distribution.
- Experiments confirm that covariate-informed representation learning improves the posterior collapse issue in iVAE.
- TLDR(JA)
- VAE(Variational Autoencoder)のELBO(Evidence Lower BOund)が、エントロピーの和に収束することを示す。
- エントロピーの和への収束は、VAEの最適化における重要な性質であることを明らかにする。
- この結果は、VAEの最適化の理解に役立ち、新たなアルゴリズムや改良を導く可能性がある。
- 実験により、ELBOがエントロピーの和に収束することが確認される。
- TLDR(EN)
- Demonstrating that the ELBO (Evidence Lower BOund) of VAEs (Variational Autoencoders) converges to a sum of entropies.
- The convergence to a sum of entropies reveals an important property of VAE optimization.
- This result can aid in understanding VAE optimization and may lead to new algorithms or improvements.
- Experiments confirm the convergence of the ELBO to a sum of entropies.
- TLDR(JA)
- 一般的な初期化を用いた過剰パラメータ化された有限幅の2層線形ネットワークに対する勾配降下法の線形収束を示す。
- 過剰パラメータ化されたネットワークでは、勾配降下法が最適解に効率的に収束することが分かる。
- この結果は、過剰パラメータ化された有限幅の2層線形ネットワークの最適化に関する理解を深めるのに役立つ。
- 実験により、一般的な初期化を用いた過剰パラメータ化された有限幅の2層線形ネットワークに対する勾配降下法の線形収束が確認される。
- TLDR(EN)
- Demonstrating linear convergence of gradient descent for overparametrized finite width two-layer linear networks with general initialization.
- Gradient descent is shown to efficiently converge to the optimal solution in overparametrized networks.
- This result helps deepen the understanding of optimization in overparametrized finite width two-layer linear networks.
- Experiments confirm the linear convergence of gradient descent for overparametrized finite width two-layer linear networks with general initialization.
- TLDR(JA)
- 敵対的ネットワークの最適性ギャップに対処するためのギャップ意識のある学習率スケジューラを提案。
- 最適性ギャップを測定し、学習率を適応的に調整することで、敵対的ネットワークの最適化を改善する。
- 提案手法は、敵対的学習におけるギャップの影響を軽減し、ネットワークの性能を向上させる。
- 実験により、ギャップ意識のある学習率スケジューラが敵対的ネットワークの最適性ギャップに対処し、性能を向上させることが確認される。
- TLDR(EN)
- Proposing a gap-aware learning rate scheduler to address the optimality gap in adversarial networks.
- Measuring the optimality gap and adaptively adjusting the learning rate to improve the optimization of adversarial networks.
- The proposed method mitigates the impact of gaps in adversarial learning and enhances network performance.
- Experiments confirm that the gap-aware learning rate scheduler addresses the optimality gap in adversarial networks and improves performance.
- TLDR(JA)
- 外挿を用いたリーマン加速勾配法を提案。
- 既存のリーマン加速勾配法に比べて、改善された収束性能を示す。
- この方法は、リーマン多様体上の最適化問題を効率的に解決するための新しいアプローチを提供する。
- 実験により、外挿を用いたリーマン加速勾配法が既存のリーマン加速勾配法に比べて優れた収束性能を達成することが確認される。
- TLDR(EN)
- Proposing Riemannian accelerated gradient methods via extrapolation.
- Demonstrating improved convergence performance compared to existing Riemannian accelerated gradient methods.
- This approach provides a new method for efficiently solving optimization problems on Riemannian manifolds.
- Experiments confirm that the Riemannian accelerated gradient methods via extrapolation achieve superior convergence performance compared to existing Riemannian accelerated gradient methods.
- TLDR(JA)
- 分布の頑健性を利用したグローバル・ローカル正則化手法を提案。
- このアプローチは、データの局所的な特徴を捉えることができる正則化手法を開発する。
- グローバルとローカルの情報を組み合わせることで、より強力な正則化手法を提供する。
- 実験により、分布の頑健性を利用したグローバル・ローカル正則化が性能を向上させることが確認される。
- TLDR(EN)
- Proposing a global-local regularization approach using distributional robustness.
- This approach develops regularization methods that can capture local features of the data.
- Combining global and local information provides more powerful regularization methods.
- Experiments confirm that global-local regularization via distributional robustness improves performance.
- TLDR(JA)
- 低次元構造の関数分解を用いて、ローカルおよびグローバルなモデル説明を統一する手法を提案。
- モデルの局所的および大域的な解釈を統合し、より包括的な理解を可能にする。
- 複雑な非線形モデルや深層学習モデルに適用可能で、データから意味のある説明を抽出する。
- 実験により、提案手法が既存の説明手法と比較して、より包括的で一貫性のある解釈を提供することが示される。
- TLDR(EN)
- Proposing a method to unify local and global model explanations using functional decomposition of low-dimensional structures.
- Integrating local and global interpretations of models to enable a more comprehensive understanding.
- Applicable to complex nonlinear models and deep learning models, extracting meaningful explanations from the data.
- Experiments show that the proposed method provides more comprehensive and consistent interpretations compared to existing explanation methods.
Acknowlegements
I want to thank my PhD supervisor Ioannis Mitliagkas, for supporting my participation in the AISTATS2023. I want to express our deepest gratitude to Ioannis for his support!