Skip to the content.

目次

  1. OOD とは?
    • Awesome OOD に英語版ならめちゃめちゃまとまってる
  2. Distribution Shift: これは別でまとめてる
  3. Main Papers
    • どうすれば汎化するのか系 (原理解明 / 提案手法 両者含む)
    • Dataset 系
    • まとめて評価系
    • Calibration との関連 Calibration: これも一部、別でまとめてる
    • 応用系
  4. Other References
  5. Dataset

OOD とは?

OOD の定義

Screenshot 2022-03-04 at 12 42 07 PM

ERM や Robust Optimization の定義

Screenshot 2022-03-04 at 12 42 21 PM Screenshot 2022-03-04 at 12 42 30 PM

OOD 達成のための IRM

Screenshot 2022-03-04 at 12 43 02 PM Screenshot 2022-03-04 at 12 43 12 PM

Irina 先生の Podcast

OOD を達成するための文脈三つ

以下の多くの方法は、単純なERM(Empirical Risk Minimization)目標に調整パラメーターを持つ正則化ペナルティを追加すると見なすことができる。

Main Papers

どうすれば汎化するのか系 (原理解明 / 提案手法 両者含む)

149910533-6fee9dae-f065-43f7-a266-973347b8968a 149911540-03fdca2c-3392-4434-a1ed-bc9865690ce3

Screenshot 2022-06-08 at 10 55 49 AMScreenshot 2022-06-08 at 10 55 30 AM

Screenshot 2023-10-12 at 19 02 00

Screenshot 2023-10-12 at 19 05 31

Dataset 系

151248060-862aef01-b223-47d7-8176-b01991dcc05b

Screenshot 2022-03-04 at 12 30 15 PM

Screenshot 2022-03-04 at 12 45 21 PM

Screenshot 2022-03-04 at 12 45 57 PM

Screenshot 2023-11-30 at 12 05 00

まとめて評価系

124196221-f201fc80-da99-11eb-9f33-3dfbd1e7418e 124196260-0940ea00-da9a-11eb-9fdd-49d9390691f4

136615591-cc8abb60-69a4-469b-a2db-ee6853620814

150447688-73a81875-667f-4960-a4a0-32fa397610d8

153698962-76e24e2e-d108-419c-ae90-94a927b6196f

Calibration との関連

136666733-6b819db5-5b82-4b4f-8ee0-bd8c03a76478

149860532-2b185c03-476a-4bf5-9701-23d7fed57881

応用系

Other References

Datasets

See also Datashift Dataset まとめ

Following OOD dataset summary is supported by Shiro Takagi

name category description goal experiment architecture performance link others
Colored MNIST IRM MNISTのデータを偶奇で赤と緑に色分けしたもの.訓練データの偶奇の比率とテストデータの偶奇の比率が反転してる 訓練中の強い偽相関に惑わされずにテスト時に適切な分類ができるかを見る ERMとIRMでそれぞれ訓練し,テスト時の性能を比較 MNIST ConvNet(in_dim-64-128-128-128-out_dimのCNN.ReLUでgroupnorm ERMで,train-val accが52.0 ± 0.1,Leave-one-domain-out cross-validation accが34.2 ± 1.2 https://arxiv.org/pdf/1907.02893.pdf  
Rotated MNIST (MNIST-r) Domain Generalization MNISTから100枚の画像をサンプリング.これを15度,30度,45度,60度,75度回転させたデータを作る 他ドメインで学習したモデルが他ドメインに対しても良い性能を出すかみる 5つのドメインで学習して残り一つのドメインでテストする(例:回転なし,15度,30度,45度,60度,で学習して,75度でテスト) MNIST ConvNet(in_dim-64-128-128-128-out_dimのCNN.ReLUでgroupnorm) ERMで,train-val accが98.0 ± 0.0,Leave-one-domain-out cross-validation accが98.0 ± 0.0 https://arxiv.org/pdf/1508.07680.pdf  
VLCS Domain Generalization PASCAL, VOC, LabelMe, Caltech101, SUN04の4つのデータセットの組み合わせ.鳥,車,椅子,犬,人がクラスとして共通している.データ数が10729,次元が224,クラスが5 データセットごとのバイアスに惑わされないような学習の性能を測りたい それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 ResNet-50 ERMで,train-val accが77.4 ± 0.3,Leave-one-domain-out cross-validation accが76.8 ± 1.0 https://www.cv-foundation.org/openaccess/content_iccv_2013/papers/Fang_Unbiased_Metric_Learning_2013_ICCV_paper.pdf PASCAL VOCは物体検出で用いられるデータで20クラス分類.LabelMeも物体検出のためのデータセットで,自然画像の中のオブジェクトにラベルがつけられている.Caltech101は101クラスの画像で,各クラスが40~800のデータ数(ほとんどが50くらい.SUN09も物体検出用のデータセットで,200以上のクラスからなる自然画像.
PACS Domain Generalization Photos, Art painting, Cartoon, Sketchの4つの異なるスタイルのデータセットからなる.犬,象,キリン,ギター,馬,家,人がクラスとして共通している.データ数が9991,次元が224,クラスが7 データセットごとのバイアスに惑わされないような学習の性能を測りたい それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 ResNet-50 ERMで,train-val accが85.7 ± 0.5,Leave-one-domain-out cross-validation accが83.3 ± 0.6 https://arxiv.org/abs/1710.03077  
Office-Home Domain Generalization Artistic images, Clip Art, Product images and Real-World imagesの4つのドメイン.各ドメインごとに,家やオフィスにあるような65種類のオブジェクトで構成される.データ数が1588,次元が224,クラスが65 データセットごとのバイアスに惑わされないような学習の性能を測りたい それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 ResNet-50 ERMで,train-val accが67.5 ± 0.5,Leave-one-domain-out cross-validation accが67.3 ± 0.3 https://openaccess.thecvf.com/content_cvpr_2017/papers/Venkateswara_Deep_Hashing_Network_CVPR_2017_paper.pdf  
Terra Incognita Domain Generalization 様々な場所(4つのドメイン)で取られた野生動物の写真.occlusionがあったり日光量が違ったりといった現実世界の写真の特徴もとらえてる.データ数が24788,次元が224,10クラス 未知環境に汎化する能力を図るためのデータ 4つのカメラを撮ってきて一つをvalidationとして使ったときのaccuracyの評価.また,leave-one-outも. ResNet-50 ERMで,train-val accが47.2 ± 0.4,Leave-one-domain-out cross-validation accが46.2 ± 0.2 https://arxiv.org/pdf/1807.04975.pdf  
DomainNet Domain Generalization sketch, real, quickdraw, painting, infograph, clipartの間のドメイン適応.データ数が586, 575,次元が224,345クラス unsupervised domain adaptationで単一ドメインからデータがとってこられていたのが現実的でなかったので,さまざまなソースからとってきたデータセットをつくった それぞれのデータセットで訓練したときの,他のデータセットをテストデータとして用いて,精度を評価 ResNet-50 ERMで,train-val accが41.2 ± 0.2,Leave-one-domain-out cross-validation accが40.8 ± 0.2 https://arxiv.org/pdf/1812.01754.pdf  
WILDS Domain Generalization 8つのデータセットからなる.domain genaralizationのためのiWildCam,Camelyon17,OGB-MolPCBAと,Subpopulation
shifのためのCivilComments,そしてDomain generalization + subpopulation shiftのためのFMoW,PovertyMap,Amazon,Py150.論文のFig2によくまとまっている
実世界の分布シフトをうまくとらえるデータセットがないので作成したいという動機 For all experiments, we use ResNet-50 models (He et al., 2016) that were pretrained
on ImageNet, using a learning rate of 3e-5 and no L2-regularization. As input, these models
take in images resized to 448 by 448. We trained these models with the Adam optimizer and a
batch size of 16 for 12 epochs. To pick hyperparameters, we did a grid search over learning rates
{1 × 10−5
, 3 × 10−5
, 1 × 10−4} and L2 regularization strengths {0, 1 × 10−3
, 1 × 10−2}. We report
results aggregated over 3 random seeds.
ResNet-50 iWildCamのばあい,ERM でval(ID)のF1が48.8 (2.5) accが 82.5 (0.8) val(OOD)でF1が 37.4 (1.7)でaccが 62.7 (2.4),Test(ID)でF1が 47.0 (1.4) ,accが75.7 (0.3),test(OOD)でF1 が 31.0 (1.3) accが 71.6 (2.5).以下3つのデータセットも同様に表にまとまってる https://arxiv.org/pdf/2012.07421.pdf  
Adaptiope Domain Generalization product, real, syntheticの3つのドメインからなるデータ きれいで大規模なドメイン適応のためのデータセット We obtain
these results by adding a single linear layer to the respective backbone architecture and train for 4,000 mini-batch
iterations using SGD with momentum of 0.9, learning rate
5 × 10−4
and a batch size of 64
ResNet-50 sourceのみで(ERM)acc 35.5±0.6 https://openaccess.thecvf.com/content/WACV2021/papers/Ringwald_Adaptiope_A_Modern_Benchmark_for_Unsupervised_Domain_Adaptation_WACV_2021_paper.pdf  
Stylized-ImageNet   AdaINスタイル変換によってスタイル変換したImageNet         https://arxiv.org/pdf/1811.12231.pdf  
Backgrounds Challenge   背景のみ他のクラスの画像の背景と入れ変えた画像からなるデータセット         https://arxiv.org/pdf/2006.09994.pdf  
    同上         https://arxiv.org/pdf/1911.08731.pdf  
    同上         https://arxiv.org/pdf/2007.04612.pdf  
ImageNet-Vid-Robust/YTBB-Robust datasets   動画のフレームからとってくることで自然な摂動のあるデータをつくることができる         https://arxiv.org/pdf/1906.02168.pdf  
Meta-Dataset Few-shot classification ILSVRC-2012,Omniglot,Aircraft,CUB-200-2011,Describable Textures,Quick Draw,Fungi,VGG Flower,Traffic Signs,MSCOCOからなる large-scale, consists of diverse datasets, and presents
more realistic tasks
各エピソードは単一のデータのみ用いて,Traffic SignsとMSCOCOは完全にテスト用に残しておく.その他はそれぞれのクラスが訓練,検証,テストに分かれる ResNet-18 fine-tuningしてるので割愛 https://arxiv.org/pdf/1903.03096.pdf  
Visual Task Adaptation Benchmark   次の4つのデータセット群からなる.自然画像であるCaltech101, CIFAR-100, DTD, Flowers102, Pets, Sun397, SVHN,医療画像であるPatch Camelyon, Retinopathyとリモートセンシングの画像であるEuroSAT,Resisc45,画像の構造を理解することを目的としたデータセットである,Clevr,dSprites,SmallNORB,DMLab,KITTI,few shot learningのベンチマーク     ResNet50-v2 同上 https://arxiv.org/pdf/1910.04867.pdf  
VisDA   人工で作成したオブジェクトと実際のオブジェクトの画像のあいだのドメイン適応のためのデータ         https://arxiv.org/pdf/1710.06924.pdf  
Pretrained Transformers Improve Out-of-Distribution Robustness OOD generalization 次の4つの感情分析のためのデータセット:映画評価のSST-2とIMDb,Yelp Review DatasetからAmerican, Chinese, Italian, and Japaneseの4つをとってきたもの,Amazon Review DatasetをClothes, Women Clothing, Men Clothing, Baby Clothing, Shoesに分けたもの,STS-B(2つのジャンルからなる4つのソース MSRpar (news), Headlines (news);
MSRvid (captions), Images (captions))
    BERT たとえばSTS-BはIIDもOODもaccuracy 90%くらい    
VQA-CP OOD generalization VQAのためのOODデータセット           https://arxiv.org/pdf/1712.00377.pdf
HAMLET adversarial 自然言語のadversarialなデータ収集プロセス           https://arxiv.org/pdf/1910.14599.pdf
RealSafe adversarial 画像のadversarialのベンチマーク           https://openaccess.thecvf.com/content_CVPR_2020/papers/Dong_Benchmarking_Adversarial_Robustness_on_Image_Classification_CVPR_2020_paper.pdf
RobustBench adversarial adversarialのベンチマーク           https://robustbench.github.io/
IMAGENET-A adversarial 自然なadversarial           https://arxiv.org/pdf/1907.07174.pdf
IMAGENET-O ood detection 自然なood           https://arxiv.org/pdf/1907.07174.pdf
A CRITICAL ANALYSIS OF DISTRIBUTION SHIFT ood real world distribution shiftのデータセット.ImageNet-Renditions (ImageNet-R), DeepFashion
Remixed (DFR), and StreetView StoreFronts (SVSF)からなる.
          https://openreview.net/pdf?id=o20_NVA92tK