以下の多くの方法は、単純なERM(Empirical Risk Minimization)目標に調整パラメーターを持つ正則化ペナルティを追加すると見なすことができる。
Symmetric Cross Entropy for Robust Learning with Noisy Labels: CLE じゃなくて Symmetric Cross Entropy が 1 hot label に引っ張られず汎化しやすい
収縮解析を使用して、一般化と動的なロバスト性がアルゴリズムの安定性という概念を通じて密接に関連していることを示します
測定は計算が簡単で、テストポイントの真のラベルに依存せず、データ分布やモデルに関する前提を置かず、適切なデータ変換のセットを選択するだけで、既存の方法が適用できない外部ドメイン(OOD)の設定でも適用できる
Noise or Signal: The Role of Image Backgrounds in Object Recognition: 画像の背景依存性 / Background Challenge
On the Impact of Spurious Correlation for Out-of-distribution Detection: 不変的特徴と環境(スプリアス)特徴の両方を考慮したデータシフトのモデルを提示
Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data: シフトを三つのタイプに分割、アーキテクチャによるID性能とOOD性能の比較をした
Understanding Robustness of Transformers for Image Classification: でかいデータセットで ViT 学習させるとロバストになる
How does a neural network’s architecture impact its robustness to noisy labels?: ネットワークのアーキテクチャが、ノイズの多いラベルに対する頑健性にどのように影響するかを探る
When is invariance useful in an Out-of-Distribution Generalization problem ? : モデル依存のOOD 汎化に関しての研究、7つの自然言語処理データセットに対して、現実的な分布移動を考慮した新しい頑健性ベンチマークを構築し、分布外汎化(OOD)を系統的に測定
Can You Trust Your Model’s Uncertainty?: Calibration と OOD の関係
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning: 尤度ベースの 汎化指標 がDNN でも良い性能示すし、特にキャリブレーションとOODの点で、クロスバリデーション法と手動チューニングよりも優れた性能
On Calibration and Out-of-domain Generalization: OODの性能とモデルのキャリブレーションとの間に関連性を見出し、複数のドメインにまたがるキャリブレーションは、より優れたOOD一般化につながる不変表現の特別なケースと見なすことができると主張
See also Datashift Dataset まとめ
Following OOD dataset summary is supported by Shiro Takagi
name | category | description | goal | experiment | architecture | performance | link | others |
---|---|---|---|---|---|---|---|---|
Colored MNIST | IRM | MNISTのデータを偶奇で赤と緑に色分けしたもの.訓練データの偶奇の比率とテストデータの偶奇の比率が反転してる | 訓練中の強い偽相関に惑わされずにテスト時に適切な分類ができるかを見る | ERMとIRMでそれぞれ訓練し,テスト時の性能を比較 | MNIST ConvNet(in_dim-64-128-128-128-out_dimのCNN.ReLUでgroupnorm | ERMで,train-val accが52.0 ± 0.1,Leave-one-domain-out cross-validation accが34.2 ± 1.2 | https://arxiv.org/pdf/1907.02893.pdf | |
Rotated MNIST (MNIST-r) | Domain Generalization | MNISTから100枚の画像をサンプリング.これを15度,30度,45度,60度,75度回転させたデータを作る | 他ドメインで学習したモデルが他ドメインに対しても良い性能を出すかみる | 5つのドメインで学習して残り一つのドメインでテストする(例:回転なし,15度,30度,45度,60度,で学習して,75度でテスト) | MNIST ConvNet(in_dim-64-128-128-128-out_dimのCNN.ReLUでgroupnorm) | ERMで,train-val accが98.0 ± 0.0,Leave-one-domain-out cross-validation accが98.0 ± 0.0 | https://arxiv.org/pdf/1508.07680.pdf | |
VLCS | Domain Generalization | PASCAL, VOC, LabelMe, Caltech101, SUN04の4つのデータセットの組み合わせ.鳥,車,椅子,犬,人がクラスとして共通している.データ数が10729,次元が224,クラスが5 | データセットごとのバイアスに惑わされないような学習の性能を測りたい | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが77.4 ± 0.3,Leave-one-domain-out cross-validation accが76.8 ± 1.0 | https://www.cv-foundation.org/openaccess/content_iccv_2013/papers/Fang_Unbiased_Metric_Learning_2013_ICCV_paper.pdf | PASCAL VOCは物体検出で用いられるデータで20クラス分類.LabelMeも物体検出のためのデータセットで,自然画像の中のオブジェクトにラベルがつけられている.Caltech101は101クラスの画像で,各クラスが40~800のデータ数(ほとんどが50くらい.SUN09も物体検出用のデータセットで,200以上のクラスからなる自然画像. |
PACS | Domain Generalization | Photos, Art painting, Cartoon, Sketchの4つの異なるスタイルのデータセットからなる.犬,象,キリン,ギター,馬,家,人がクラスとして共通している.データ数が9991,次元が224,クラスが7 | データセットごとのバイアスに惑わされないような学習の性能を測りたい | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが85.7 ± 0.5,Leave-one-domain-out cross-validation accが83.3 ± 0.6 | https://arxiv.org/abs/1710.03077 | |
Office-Home | Domain Generalization | Artistic images, Clip Art, Product images and Real-World imagesの4つのドメイン.各ドメインごとに,家やオフィスにあるような65種類のオブジェクトで構成される.データ数が1588,次元が224,クラスが65 | データセットごとのバイアスに惑わされないような学習の性能を測りたい | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが67.5 ± 0.5,Leave-one-domain-out cross-validation accが67.3 ± 0.3 | https://openaccess.thecvf.com/content_cvpr_2017/papers/Venkateswara_Deep_Hashing_Network_CVPR_2017_paper.pdf | |
Terra Incognita | Domain Generalization | 様々な場所(4つのドメイン)で取られた野生動物の写真.occlusionがあったり日光量が違ったりといった現実世界の写真の特徴もとらえてる.データ数が24788,次元が224,10クラス | 未知環境に汎化する能力を図るためのデータ | 4つのカメラを撮ってきて一つをvalidationとして使ったときのaccuracyの評価.また,leave-one-outも. | ResNet-50 | ERMで,train-val accが47.2 ± 0.4,Leave-one-domain-out cross-validation accが46.2 ± 0.2 | https://arxiv.org/pdf/1807.04975.pdf | |
DomainNet | Domain Generalization | sketch, real, quickdraw, painting, infograph, clipartの間のドメイン適応.データ数が586, 575,次元が224,345クラス | unsupervised domain adaptationで単一ドメインからデータがとってこられていたのが現実的でなかったので,さまざまなソースからとってきたデータセットをつくった | それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 | ResNet-50 | ERMで,train-val accが41.2 ± 0.2,Leave-one-domain-out cross-validation accが40.8 ± 0.2 | https://arxiv.org/pdf/1812.01754.pdf | |
WILDS | Domain Generalization | 8つのデータセットからなる.domain genaralizationのためのiWildCam,Camelyon17,OGB-MolPCBAと,Subpopulation shifのためのCivilComments,そしてDomain generalization + subpopulation shiftのためのFMoW,PovertyMap,Amazon,Py150.論文のFig2によくまとまっている |
実世界の分布シフトをうまくとらえるデータセットがないので作成したいという動機 | For all experiments, we use ResNet-50 models (He et al., 2016) that were pretrained on ImageNet, using a learning rate of 3e-5 and no L2-regularization. As input, these models take in images resized to 448 by 448. We trained these models with the Adam optimizer and a batch size of 16 for 12 epochs. To pick hyperparameters, we did a grid search over learning rates {1 × 10−5 , 3 × 10−5 , 1 × 10−4} and L2 regularization strengths {0, 1 × 10−3 , 1 × 10−2}. We report results aggregated over 3 random seeds. |
ResNet-50 | iWildCamのばあい,ERM でval(ID)のF1が48.8 (2.5) accが 82.5 (0.8) val(OOD)でF1が 37.4 (1.7)でaccが 62.7 (2.4),Test(ID)でF1が 47.0 (1.4) ,accが75.7 (0.3),test(OOD)でF1 が 31.0 (1.3) accが 71.6 (2.5).以下3つのデータセットも同様に表にまとまってる | https://arxiv.org/pdf/2012.07421.pdf | |
Adaptiope | Domain Generalization | product, real, syntheticの3つのドメインからなるデータ | きれいで大規模なドメイン適応のためのデータセット | We obtain these results by adding a single linear layer to the respective backbone architecture and train for 4,000 mini-batch iterations using SGD with momentum of 0.9, learning rate 5 × 10−4 and a batch size of 64 |
ResNet-50 | sourceのみで(ERM)acc 35.5±0.6 | https://openaccess.thecvf.com/content/WACV2021/papers/Ringwald_Adaptiope_A_Modern_Benchmark_for_Unsupervised_Domain_Adaptation_WACV_2021_paper.pdf | |
Stylized-ImageNet | AdaINスタイル変換によってスタイル変換したImageNet | https://arxiv.org/pdf/1811.12231.pdf | ||||||
Backgrounds Challenge | 背景のみ他のクラスの画像の背景と入れ変えた画像からなるデータセット | https://arxiv.org/pdf/2006.09994.pdf | ||||||
同上 | https://arxiv.org/pdf/1911.08731.pdf | |||||||
同上 | https://arxiv.org/pdf/2007.04612.pdf | |||||||
ImageNet-Vid-Robust/YTBB-Robust datasets | 動画のフレームからとってくることで自然な摂動のあるデータをつくることができる | https://arxiv.org/pdf/1906.02168.pdf | ||||||
Meta-Dataset | Few-shot classification | ILSVRC-2012,Omniglot,Aircraft,CUB-200-2011,Describable Textures,Quick Draw,Fungi,VGG Flower,Traffic Signs,MSCOCOからなる | large-scale, consists of diverse datasets, and presents more realistic tasks |
各エピソードは単一のデータのみ用いて,Traffic SignsとMSCOCOは完全にテスト用に残しておく.その他はそれぞれのクラスが訓練,検証,テストに分かれる | ResNet-18 | fine-tuningしてるので割愛 | https://arxiv.org/pdf/1903.03096.pdf | |
Visual Task Adaptation Benchmark | 次の4つのデータセット群からなる.自然画像であるCaltech101, CIFAR-100, DTD, Flowers102, Pets, Sun397, SVHN,医療画像であるPatch Camelyon, Retinopathyとリモートセンシングの画像であるEuroSAT,Resisc45,画像の構造を理解することを目的としたデータセットである,Clevr,dSprites,SmallNORB,DMLab,KITTI,few shot learningのベンチマーク | ResNet50-v2 | 同上 | https://arxiv.org/pdf/1910.04867.pdf | ||||
VisDA | 人工で作成したオブジェクトと実際のオブジェクトの画像のあいだのドメイン適応のためのデータ | https://arxiv.org/pdf/1710.06924.pdf | ||||||
Pretrained Transformers Improve Out-of-Distribution Robustness | OOD generalization | 次の4つの感情分析のためのデータセット:映画評価のSST-2とIMDb,Yelp Review DatasetからAmerican, Chinese, Italian, and Japaneseの4つをとってきたもの,Amazon Review DatasetをClothes, Women Clothing, Men Clothing, Baby Clothing, Shoesに分けたもの,STS-B(2つのジャンルからなる4つのソース MSRpar (news), Headlines (news); MSRvid (captions), Images (captions)) |
BERT | たとえばSTS-BはIIDもOODもaccuracy 90%くらい | ||||
VQA-CP | OOD generalization | VQAのためのOODデータセット | https://arxiv.org/pdf/1712.00377.pdf | |||||
HAMLET | adversarial | 自然言語のadversarialなデータ収集プロセス | https://arxiv.org/pdf/1910.14599.pdf | |||||
RealSafe | adversarial | 画像のadversarialのベンチマーク | https://openaccess.thecvf.com/content_CVPR_2020/papers/Dong_Benchmarking_Adversarial_Robustness_on_Image_Classification_CVPR_2020_paper.pdf | |||||
RobustBench | adversarial | adversarialのベンチマーク | https://robustbench.github.io/ | |||||
IMAGENET-A | adversarial | 自然なadversarial | https://arxiv.org/pdf/1907.07174.pdf | |||||
IMAGENET-O | ood detection | 自然なood | https://arxiv.org/pdf/1907.07174.pdf | |||||
A CRITICAL ANALYSIS OF DISTRIBUTION SHIFT | ood | real world distribution shiftのデータセット.ImageNet-Renditions (ImageNet-R), DeepFashion Remixed (DFR), and StreetView StoreFronts (SVSF)からなる. |
https://openreview.net/pdf?id=o20_NVA92tK |