目次
- OOD とは?
- Awesome OOD に英語版ならめちゃめちゃまとまってる
- Distribution Shift: これは別でまとめてる
- Main Papers
- どうすれば汎化するのか系 (原理解明 / 提案手法 両者含む)
- Dataset 系
- まとめて評価系
- Calibration との関連 Calibration: これも一部、別でまとめてる
- 応用系
- Other References
- Dataset
OOD とは?
OOD の定義
ERM や Robust Optimization の定義
OOD 達成のための IRM
Irina 先生の Podcast
OOD を達成するための文脈三つ
以下の多くの方法は、単純なERM(Empirical Risk Minimization)目標に調整パラメーターを持つ正則化ペナルティを追加すると見なすことができる。
- [1] 表現学習を用いたアプローチ:
- カーネルメソッドを用いたドメイン不変表現学習(Muandet et al., 2013; Ghifary et al., 2016)
- Invariant Risk Minimization (IRM)(Arjovsky et al., 2019; Krueger et al., 2020)
- Domain Adversarial Neural Networks (DANN)(Sun and Saenko, 2016; Li et al., 2018b)日本語スライド
- [2] 勾配計算に正則化を追加するアプローチ:
- 勾配計算に正則化を追加する方法(Shi et al., 2021; Rame et al., 2022)
- [3] その他のアプローチ:
- 分布的に堅牢な最適化(Distributionally Robust Optimization)(Sagawa et al., 2019):トレーニングドメインの最悪ケースの分布シナリオを学習します。
- メタラーニング(Meta-Learning)(Finn et al., 2017; Li et al., 2018a):ドメインシフトをシミュレートするためにメタラーニングタスクを構築し、一般的な知識を学習するメカニズムに基づいています。
Main Papers
どうすれば汎化するのか系 (原理解明 / 提案手法 両者含む)
- Shortcut Learning in Deep Neural Networks: 問題を解くために使ってはいけない別の情報を使って”ずる”をするショートカット学習は動物でもみられ、現在のML/DLでも広くみられる。これによりMLは違う方向に汎化し、学習分布外(o.o.d)に外挿できない。実験結果の詳細な分析、o.o.d汎化のテスト実験が必要である by Daisuke Okanohara (@hillbig)。
- Invariant Risk Minimization: バイアスのない機械学習モデルを構築するフレームワークの提案。特定環境依存の特徴を採用するリスクを最小化するために、環境横断で特徴量を採用した場合のlossを計算し合算値を最小化するようにする
- Towards a Theoretical Framework of Out-of-Distribution Generalization: OODの汎化誤差境界を証明
- Distributionally Robust Neural Networks for Group Shifts: On the Importance of Regularization for Worst-Case Generalization: Distributionally Robust Optimization (DRO) を提案
- An Information-theoretic Approach to Distribution Shifts: どの特徴選ぶとOOD汎化するのか?それが情報量とかのアプローチでやるとうまくいくよと言ってる
- Can Subnetwork Structure be the Key to Out-of-Distribution Generalization?: 宝くじ仮説+OOD(OOD汎化のための構造があって、それを使った学習を提案)
- Predicting Unreliable Predictions by Shattering a Neural Network: 活性化領域の数が少ないモデルの方が一般化しやすく、知識の抽象化が進んだモデルの方が一般化しやすい
- Invariance Principle Meets Information Bottleneck for Out-of-Distribution Generalization: 因果関係からの不変性原理は、分布外(OOD)汎化の失敗に対処しようとする不変性リスク最小化(IRM)のような注目すべきアプローチの中でも核心をついてる
- Fishr: Invariant Gradient Variances for Out-of-distribution Generalization: 損失の勾配の空間においてドメイン不変性を強制する正則化を提案 (Fisher 情報行列を使う)
- Loss Function Learning for Domain Generalization by Implicit Gradient: CLE を AutoML で発見した Loss を使うとロバストになる
- Head2Toe: Utilizing Intermediate Representations for Better OOD Generalization: 事前に学習されたソースモデルのすべての層から特徴を選択し、より優れた分布外の一般化を達成する
-
Symmetric Cross Entropy for Robust Learning with Noisy Labels: CLE じゃなくて Symmetric Cross Entropy が 1 hot label に引っ張られず汎化しやすい
- Adaptive Risk Minimization: Learning to Adapt to Domain Shift: ほとんどの先行手法は、全てのドメインで良好に機能する単一のロバストモデルや不変特徴空間の学習を目的としている。これに対し、我々は、ラベルのないテストポイントを用いて、テスト時にドメインのシフトに適応するモデルを学習することを目的とする。我々の主な貢献は、適応的リスク最小化(ARM)の枠組みを導入することである。この枠組みでは、学習ドメイン上で適応学習を行うことにより、シフトに効果的に適応するようにモデルが直接最適化される。
- Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters
- いい感じの drop out を設計
- Bernoulliサンプリングによるドロップアウトマスクの構築という古典的なアプローチから離れ、ネットワークのパラメータの勾配信号対雑音比(GSNR)
- Identifiability Conditions for Domain Adaptation
- 双方向ドメインマッピング問題を研究し、線形ドメインマップの識別可能性のためのいくつかの新しい十分条件を提供します。我々の分析の結果として、第三モーメントテンソルに対する弱い制約が識別可能性のために十分であることを示し、トピックモデルなどの一般的な潜在変数モデルの識別可能性を証明し、線形マップの識別可能性の証明のための計算上実行可能な方法を提供します
- Domain-invariant Feature Exploration for Domain Generalization
- メイン不変の特徴は内部と相互の両方の側面から生じるべきであると主張しています。内部の不変性は、特徴が単一のドメインで学習され、データの固有のセマンティクスを捉えることを意味します。相互の不変性は、特徴が複数のドメイン(クロスドメイン)で学習され、特徴が共通の情報を含むことを意味します
- DIFEXは、知識蒸留フレームワークを使用して、内部的に不変な特徴としての高レベルのフーリエ位相をキャプチャし、相互に不変な特徴としてのクロスドメインの相関整列を学習
- A Note on “Assessing Generalization of SGD via Disagreement”_
- ディープニューラルネットワークの平均テストエラーは、ラベルが不要なモデルの予測の不一致を通じて推定できることが経験的に示されている ref
- Generalization as Dynamical Robustness–The Role of Riemannian Contraction in Supervised Learning
-
収縮解析を使用して、一般化と動的なロバスト性がアルゴリズムの安定性という概念を通じて密接に関連していることを示します
- Predicting Out-of-Domain Generalization with Neighborhood Invariance
- 「近傍不変性」という、ローカル変換近傍内での分類器の出力の不変性を測定する方法を提案します。具体的には、変換のセットをサンプリングし、入力テストポイントが与えられた場合、不変性を同じクラスに分類された変換されたポイントの最大の割合として計算します。
-
測定は計算が簡単で、テストポイントの真のラベルに依存せず、データ分布やモデルに関する前提を置かず、適切なデータ変換のセットを選択するだけで、既存の方法が適用できない外部ドメイン(OOD)の設定でも適用できる
- A Closer Look at Accuracy vs. Robustness
- ロバストなネットワークの訓練方法は、テストの精度が低下することがあり、これが以前の研究で深層学習においてロバスト性と精度のトレードオフが避けられない可能性があるとされてきました
- この性質を考慮に入れて、ローカルにリプシッツ連続な関数を通じて、ベンチマークデータセットに対してロバスト性と精度の両方が達成可能であることを証明します
- 実際にロバスト性と精度を達成するためには、ローカルリプシッツ性を課す方法を使用し、それらを深層学習の一般化技術で補完することが必要であると結論づけます
Dataset 系
-
Noise or Signal: The Role of Image Backgrounds in Object Recognition: 画像の背景依存性 / Background Challenge
-
On the Impact of Spurious Correlation for Out-of-distribution Detection: 不変的特徴と環境(スプリアス)特徴の両方を考慮したデータシフトのモデルを提示
- VisDA: The Visual Domain Adaptation Challenge : 人工画像から自然画像への DA データセット提案
- WILDS: A Benchmark of in-the-Wild Distribution Shifts: 画像・言語・グラフの OOD データセット群
- In Search of Lost Domain Generalization: DomainBed、ドメイン汎化のデータセット群
- The Auto Arborist Dataset: A Large-Scale Benchmark for Multiview Urban Forest Monitoring Under Domain Shift
- paper
- Ioannis からおすすめされた
まとめて評価系
- OoD-Bench: Benchmarking and Understanding Out-of-Distribution Generalization Datasets and Algorithms: OODデータセットをDiversity ShiftとCorrelation Shiftの軸でカテゴリ分けした
- Adaptive versus Standard Descent Methods and Robustness Against Adversarial Examples: AEs環境でOptimizer比較も小規模で行ったワーク
- Towards Shape Biased Unsupervised Representation Learning for Domain Generalization : Domain Adaptation OODデータセットがまとまって評価されてる
- A Fine-Grained Analysis on Distribution Shift: 複数の異なる分布シフトにわたってアルゴリズムのロバスト性を評価
-
Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data: シフトを三つのタイプに分割、アーキテクチャによるID性能とOOD性能の比較をした
-
Understanding Robustness of Transformers for Image Classification: でかいデータセットで ViT 学習させるとロバストになる
-
How does a neural network’s architecture impact its robustness to noisy labels?: ネットワークのアーキテクチャが、ノイズの多いラベルに対する頑健性にどのように影響するかを探る
-
When is invariance useful in an Out-of-Distribution Generalization problem ? : モデル依存のOOD 汎化に関しての研究、7つの自然言語処理データセットに対して、現実的な分布移動を考慮した新しい頑健性ベンチマークを構築し、分布外汎化(OOD)を系統的に測定
- An Empirical Investigation of Domain Generalization with Empirical Risk Minimizers: フィッシャー情報、予測エントロピー、最大平均不一致に関する尺度が、ERMモデルの分布外汎化に関する良い予測因子であることが分かった
Calibration との関連
-
Can You Trust Your Model’s Uncertainty?: Calibration と OOD の関係
-
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning: 尤度ベースの 汎化指標 がDNN でも良い性能示すし、特にキャリブレーションとOODの点で、クロスバリデーション法と手動チューニングよりも優れた性能
-
On Calibration and Out-of-domain Generalization: OODの性能とモデルのキャリブレーションとの間に関連性を見出し、複数のドメインにまたがるキャリブレーションは、より優れたOOD一般化につながる不変表現の特別なケースと見なすことができると主張
- Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning : Calibration と OOD のベンチマーク結果を提供
応用系
- A Winning Hand: Compressing Deep Networks Can Improve Out-Of-Distribution Robustness: 「宝くじ仮設のような」プルーニング手法が、驚くべきことに、ロバストなディープニューラルネットワークを作成するために使用できる
- The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning: Finetuning TaskにおいてPretrained Modelの中でもたくさんのデータで学習すればOODにも頑健になる
Other References
- OOD Paper Summary (認証が必要 / 閲覧したい方は連絡ください)
- The Pitfalls of Simplicity Bias in Neural Networks
- IRM Slides
- DomainBed Paper
- Arjovsky’sPhD Thesis
- 因果と相関:未知の分布まで汎化できるか
Datasets
See also Datashift Dataset まとめ
Following OOD dataset summary is supported by Shiro Takagi
name | category | description | goal | experiment | architecture | performance | link | others |
---|---|---|---|---|---|---|---|---|
Colored MNIST | IRM | MNISTのデータを偶奇で赤と緑に色分けしたもの.訓練データの偶奇の比率とテストデータの偶奇の比率が反転してる | 訓練中の強い偽相関に惑わされずにテスト時に適切な分類ができるかを見る | ERMとIRMでそれぞれ訓練し,テスト時の性能を比較 | MNIST ConvNet(in_dim-64-128-128-128-out_dimのCNN.ReLUでgroupnorm | ERMで,train-val accが52.0 ± 0.1,Leave-one-domain-out cross-validation accが34.2 ± 1.2 | https://arxiv.org/pdf/1907.02893.pdf | |
Rotated MNIST (MNIST-r) | Domain Generalization | MNISTから100枚の画像をサンプリング.これを15度,30度,45度,60度,75度回転させたデータを作る | 他ドメインで学習したモデルが他ドメインに対しても良い性能を出すかみる | 5つのドメインで学習して残り一つのドメインでテストする(例:回転なし,15度,30度,45度,60度,で学習して,75度でテスト) | MNIST ConvNet(in_dim-64-128-128-128-out_dimのCNN.ReLUでgroupnorm) | ERMで,train-val accが98.0 ± 0.0,Leave-one-domain-out cross-validation accが98.0 ± 0.0 | https://arxiv.org/pdf/1508.07680.pdf | |
VLCS | Domain Generalization | PASCAL, VOC, LabelMe, Caltech101, SUN04の4つのデータセットの組み合わせ.鳥,車,椅子,犬,人がクラスとして共通している.データ数が10729,次元が224,クラスが5 | データセットごとのバイアスに惑わされないような学習の性能を測りたい | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが77.4 ± 0.3,Leave-one-domain-out cross-validation accが76.8 ± 1.0 | https://www.cv-foundation.org/openaccess/content_iccv_2013/papers/Fang_Unbiased_Metric_Learning_2013_ICCV_paper.pdf | PASCAL VOCは物体検出で用いられるデータで20クラス分類.LabelMeも物体検出のためのデータセットで,自然画像の中のオブジェクトにラベルがつけられている.Caltech101は101クラスの画像で,各クラスが40~800のデータ数(ほとんどが50くらい.SUN09も物体検出用のデータセットで,200以上のクラスからなる自然画像. |
PACS | Domain Generalization | Photos, Art painting, Cartoon, Sketchの4つの異なるスタイルのデータセットからなる.犬,象,キリン,ギター,馬,家,人がクラスとして共通している.データ数が9991,次元が224,クラスが7 | データセットごとのバイアスに惑わされないような学習の性能を測りたい | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが85.7 ± 0.5,Leave-one-domain-out cross-validation accが83.3 ± 0.6 | https://arxiv.org/abs/1710.03077 | |
Office-Home | Domain Generalization | Artistic images, Clip Art, Product images and Real-World imagesの4つのドメイン.各ドメインごとに,家やオフィスにあるような65種類のオブジェクトで構成される.データ数が1588,次元が224,クラスが65 | データセットごとのバイアスに惑わされないような学習の性能を測りたい | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが67.5 ± 0.5,Leave-one-domain-out cross-validation accが67.3 ± 0.3 | https://openaccess.thecvf.com/content_cvpr_2017/papers/Venkateswara_Deep_Hashing_Network_CVPR_2017_paper.pdf | |
Terra Incognita | Domain Generalization | 様々な場所(4つのドメイン)で取られた野生動物の写真.occlusionがあったり日光量が違ったりといった現実世界の写真の特徴もとらえてる.データ数が24788,次元が224,10クラス | 未知環境に汎化する能力を図るためのデータ | 4つのカメラを撮ってきて一つをvalidationとして使ったときのaccuracyの評価.また,leave-one-outも. | ResNet-50 | ERMで,train-val accが47.2 ± 0.4,Leave-one-domain-out cross-validation accが46.2 ± 0.2 | https://arxiv.org/pdf/1807.04975.pdf | |
DomainNet | Domain Generalization | sketch, real, quickdraw, painting, infograph, clipartの間のドメイン適応.データ数が586, 575,次元が224,345クラス | unsupervised domain adaptationで単一ドメインからデータがとってこられていたのが現実的でなかったので,さまざまなソースからとってきたデータセットをつくった | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが41.2 ± 0.2,Leave-one-domain-out cross-validation accが40.8 ± 0.2 | https://arxiv.org/pdf/1812.01754.pdf | |
WILDS | Domain Generalization | 8つのデータセットからなる.domain genaralizationのためのiWildCam,Camelyon17,OGB-MolPCBAと,Subpopulation shifのためのCivilComments,そしてDomain generalization + subpopulation shiftのためのFMoW,PovertyMap,Amazon,Py150.論文のFig2によくまとまっている |
実世界の分布シフトをうまくとらえるデータセットがないので作成したいという動機 | For all experiments, we use ResNet-50 models (He et al., 2016) that were pretrained on ImageNet, using a learning rate of 3e-5 and no L2-regularization. As input, these models take in images resized to 448 by 448. We trained these models with the Adam optimizer and a batch size of 16 for 12 epochs. To pick hyperparameters, we did a grid search over learning rates {1 × 10−5 , 3 × 10−5 , 1 × 10−4} and L2 regularization strengths {0, 1 × 10−3 , 1 × 10−2}. We report results aggregated over 3 random seeds. |
ResNet-50 | iWildCamのばあい,ERM でval(ID)のF1が48.8 (2.5) accが 82.5 (0.8) val(OOD)でF1が 37.4 (1.7)でaccが 62.7 (2.4),Test(ID)でF1が 47.0 (1.4) ,accが75.7 (0.3),test(OOD)でF1 が 31.0 (1.3) accが 71.6 (2.5).以下3つのデータセットも同様に表にまとまってる | https://arxiv.org/pdf/2012.07421.pdf | |
Adaptiope | Domain Generalization | product, real, syntheticの3つのドメインからなるデータ | きれいで大規模なドメイン適応のためのデータセット | We obtain these results by adding a single linear layer to the respective backbone architecture and train for 4,000 mini-batch iterations using SGD with momentum of 0.9, learning rate 5 × 10−4 and a batch size of 64 |
ResNet-50 | sourceのみで(ERM)acc 35.5±0.6 | https://openaccess.thecvf.com/content/WACV2021/papers/Ringwald_Adaptiope_A_Modern_Benchmark_for_Unsupervised_Domain_Adaptation_WACV_2021_paper.pdf | |
Stylized-ImageNet | AdaINスタイル変換によってスタイル変換したImageNet | https://arxiv.org/pdf/1811.12231.pdf | ||||||
Backgrounds Challenge | 背景のみ他のクラスの画像の背景と入れ変えた画像からなるデータセット | https://arxiv.org/pdf/2006.09994.pdf | ||||||
同上 | https://arxiv.org/pdf/1911.08731.pdf | |||||||
同上 | https://arxiv.org/pdf/2007.04612.pdf | |||||||
ImageNet-Vid-Robust/YTBB-Robust datasets | 動画のフレームからとってくることで自然な摂動のあるデータをつくることができる | https://arxiv.org/pdf/1906.02168.pdf | ||||||
Meta-Dataset | Few-shot classification | ILSVRC-2012,Omniglot,Aircraft,CUB-200-2011,Describable Textures,Quick Draw,Fungi,VGG Flower,Traffic Signs,MSCOCOからなる | large-scale, consists of diverse datasets, and presents more realistic tasks |
各エピソードは単一のデータのみ用いて,Traffic SignsとMSCOCOは完全にテスト用に残しておく.その他はそれぞれのクラスが訓練,検証,テストに分かれる | ResNet-18 | fine-tuningしてるので割愛 | https://arxiv.org/pdf/1903.03096.pdf | |
Visual Task Adaptation Benchmark | 次の4つのデータセット群からなる.自然画像であるCaltech101, CIFAR-100, DTD, Flowers102, Pets, Sun397, SVHN,医療画像であるPatch Camelyon, Retinopathyとリモートセンシングの画像であるEuroSAT,Resisc45,画像の構造を理解することを目的としたデータセットである,Clevr,dSprites,SmallNORB,DMLab,KITTI,few shot learningのベンチマーク | ResNet50-v2 | 同上 | https://arxiv.org/pdf/1910.04867.pdf | ||||
VisDA | 人工で作成したオブジェクトと実際のオブジェクトの画像のあいだのドメイン適応のためのデータ | https://arxiv.org/pdf/1710.06924.pdf | ||||||
Pretrained Transformers Improve Out-of-Distribution Robustness | OOD generalization | 次の4つの感情分析のためのデータセット:映画評価のSST-2とIMDb,Yelp Review DatasetからAmerican, Chinese, Italian, and Japaneseの4つをとってきたもの,Amazon Review DatasetをClothes, Women Clothing, Men Clothing, Baby Clothing, Shoesに分けたもの,STS-B(2つのジャンルからなる4つのソース MSRpar (news), Headlines (news); MSRvid (captions), Images (captions)) |
BERT | たとえばSTS-BはIIDもOODもaccuracy 90%くらい | ||||
VQA-CP | OOD generalization | VQAのためのOODデータセット | https://arxiv.org/pdf/1712.00377.pdf | |||||
HAMLET | adversarial | 自然言語のadversarialなデータ収集プロセス | https://arxiv.org/pdf/1910.14599.pdf | |||||
RealSafe | adversarial | 画像のadversarialのベンチマーク | https://openaccess.thecvf.com/content_CVPR_2020/papers/Dong_Benchmarking_Adversarial_Robustness_on_Image_Classification_CVPR_2020_paper.pdf | |||||
RobustBench | adversarial | adversarialのベンチマーク | https://robustbench.github.io/ | |||||
IMAGENET-A | adversarial | 自然なadversarial | https://arxiv.org/pdf/1907.07174.pdf | |||||
IMAGENET-O | ood detection | 自然なood | https://arxiv.org/pdf/1907.07174.pdf | |||||
A CRITICAL ANALYSIS OF DISTRIBUTION SHIFT | ood | real world distribution shiftのデータセット.ImageNet-Renditions (ImageNet-R), DeepFashion Remixed (DFR), and StreetView StoreFronts (SVSF)からなる. |
https://openreview.net/pdf?id=o20_NVA92tK |