Hiroki Naganuma

Papers

背景の歴史的経緯

arxiv 1802: Shampoo: Preconditioned Stochastic Tensor Optimization で Vineet Gupta (Google) が 2018 に提案

その後、

arxiv 2002: Scalable Second Order Optimization for Deep Learning

で Rohan Anil (Google Research) らが大規模分散学習に対応させたバージョンを提案

arxiv 2406: A New Perspective on Shampoo’s Preconditioner

で Sham Kakade(Harvard) が Shampoo^2 を提案

解釈

Full Adagrad の近似として考えられる