HND->SIN
Exploring the city of Singapore
Quick chat
Booth
🎯 Catch us at our spotlight poster during the first poster session at #ICLR2025!
— Weronika Ormaniec (@wormaniec) April 22, 2025
📍Poster Session 1, Apr 24, 10:00, #357
📄 Paper: “What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis.”
🔗Link: https://t.co/1N9V6V0CxB
🇸🇬 See you in Singapore!
8/8 pic.twitter.com/lTq0N6Lz0i
multimodalモデルの学習で、普通はペア化されたデータが必要だが、unimodalに事前学習されたエンコーダを使って効率的に学習する方法。周波数ドメインで特徴を表現するのがキモか? pic.twitter.com/4OtnXaJ7dY
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
transformerのself attentionのQKV重みのHessianを分析すると、MLPよりも、データへの依存性が高い。 pic.twitter.com/CedRLMTR17
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
勾配とモデルパラメータの両方にmomentum機構を使うoptimizer pic.twitter.com/3I08kgLqJV
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
Hyperfittingという現象。事前学習したモデルを少数データでfinetuneすると、学習lossがゼロ、val lossが高くなる現象がある。実はこのとき、val lossが高いけど、画像を生成してみると、見た目的には(fine tuning前より)良かったりする。 pic.twitter.com/WKBNEu9Kku
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
生成モデルのmemorization問題を、data manifoldの、サンプルx周辺のlocal intrinsic dimension LID(x)の低さで説明。図のxがサンプル、青がdatasetが持つ真の多様体、ピンクが学習された多様体。 pic.twitter.com/68KEUhptzP
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
「インスタンスレベルでのearly stopping。あるインスタンスを"マスター"にしたら、そのインスタンスの学習はやめてよい。」 pic.twitter.com/sxe8x64RUk
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
Scalingすると悪くなる場合はあるのか?→そういうタスクを考えるコンペ開催して分析→結論:ある→と思ったらもっと大きくすると上がる? pic.twitter.com/TmP876fnqh
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 24, 2025
Presenting our work, “Mastering Task Arithmetic: τJp as a Key Indicator for Weight Disentanglement,” this Friday, Apr 25, 3:00–5:30 p.m.
— Hiroki Naganuma (@_Hiroki11x) April 23, 2025
Interested in task arithmetic? Please stop by our poster!#ICLR25 @Mila_Quebec https://t.co/XzAAwwf42p
プロンプト入力をトークンとして入力するのでなく、Transformer内部の重み補正パラメータΔWに変換する。そのためのencoderを学習する。テスト時には、プロンプト→ΔW=Enc(プロンプト)→MHA後のLinear layer WにW+ΔWとして挿し込む。おもしろい! pic.twitter.com/QXuGmuLF57
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 25, 2025
Optimization can be sped up by 50% using our NiNo model! It takes a history of parameter values and predicts future parameters leveraging "neural graphs".
— Boris Knyazev (@BorisAKnyazev) September 13, 2024
Accelerating Training with Neuron Interaction and Nowcasting Networks: https://t.co/hd9GOXA3rH
code: https://t.co/hdQMTfxECd https://t.co/oF1hHbnrsF pic.twitter.com/JTQza4XB9W
重みはランダムでbiasだけ学習しても、結構表現力がある、という理論と実験による解析。ただしレイヤーの幅(チャンネル数)は十分大きい想定 pic.twitter.com/yhAVXBvftv
— 谷合 竜典 | Tatsunori Taniai @ ICLR2025 (@taniai_phd) April 25, 2025
Researcher from Philipp Hennig Lab
Mila - Vector folks
Others
A Second-Order Perspective on Model Compositionality and Incremental Learning
Mitigating Parameter Interference in Model Merging via Sharpness-Aware Fine-Tuning
Geometric Inductive Biases of Deep Networks: The Role of Data and Architecture
Want to understand how parametrization affects generalization in deep learning?
— Antonio Orvieto (@orvieto_antonio) April 26, 2025
Do not miss our spotlight poster #ICLR2025
-- today Hall 3 + Hall 2B #315@smoosavid can answer very deep questions!https://t.co/uIWCzzxnpp pic.twitter.com/OaDXQjxg33
SIN->HND
I want to thank The ANRI Fellowship for supporting my participation in the ICLR2025.