eventApril 16, 2025

International Conference on Learning Representations (ICLR) 2025

Apple is presenting new research at the annual conference on International Conference on Learning Representations (ICLR), which takes place in person in Singapore from April 24 to 28. We are proud to again sponsor the conference, which brings together the scientific and industrial research communities in deep learning. Below is an overview of Apple’s participation at ICLR 2025.

Schedule

Stop by the Apple booth (#C03) in the Singapore EXPO during exhibition hours:

Thursday, April 24: 09:30 - 17:30
Friday, April 25: 09:30 - 17:30
Saturday, April 26: 09:30 - 17:30

All times listed in GMT +8 (Singapore time).

Thursday, April 24

SPOTLIGHT POSTER
Adaptive Batch Size for Privately Finding Second-order Stationary Points
10:00 - 12:30, #611, Poster Session 1, Hall 3 + Hall 2B
Daogao Liu (University of Washington), Kunal Talwar

SPOTLIGHT POSTER
Controlling Language and Diffusion Models by Transporting Activations
10:00 - 12:30, #470, Poster Session 1, Hall 3 + Hall 2B
Pau Rodríguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau

POSTER
Do LLMs Estimate Uncertainty Well in Instruction-Following?
10:00 - 12:30, #505, Poster Session 1, Hall 3 + Hall 2B
Juyeon Heo (University of Cambridge), Miao Xiong (National University of Singapore), Christina Heinze-Deml, Jaya Narain

POSTER
How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions
10:00 - 12:30, #504, Poster Session 1, Hall 3 + Hall 2B
Tal Herman (Weizmann Institute of Science), Guy Rothblum

POSTER
On the Modeling Capabilities of Large Language Models for Sequential Decision Making
10:00 - 12:30, #635, Poster Session 1, Hall 3 + Hall 2B
Martin Klissarov (McGill University / Mila), Devon Hjelm, Alexander Toshev, Bogdan Mazoure

POSTER
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
10:00 - 12:30, #276, Poster Session 1, Hall 3 + Hall 2B
Shengyu Feng (CMU), Xiang Kong, Shuang Ma, Aonan Zhang, Dong Yin, Chong Wang, Ruoming Pang, Yiming Yang (CMU)

SPOTLIGHT POSTER
No Need to Talk: Training Mixture of Language Models Independently
15:00 - 17:30, #304, Poster Session 2, Hall 3 + 2B
Anastasiia Filippova (EPFL), Ronan Collobert, Angelos Katharopoulos, David Grangier

SPOTLIGHT POSTER
Provable Uncertainty Decomposition via Higher-Order Calibration
15:00 - 17:30, #501, Poster Session 2, Hall 3 + 2B
Gustaf Ahdritz (Harvard University), Aravind Gollakota, Parikshit Gopalan, Charlotte Peale (Stanford University), Udi Wieder

POSTER
SeedLM: Compressing LLM Weights through Seeds of a Pseudo-Random Generator
15:00 - 17:30, #310, Poster Session 2, Hall 3 + 2B
Rasoul Shafipour, David Harrison, Max Horton, Jeff Marker, Houman Bedayat, Sachin Mehta (Meta), Mohammad Rastegari (Meta), Mahyar Najibi, Saman Naderiparizi

Friday, April 25

POSTER
Cut Your Losses in Large-Vocabulary Language Models
10:00 - 12:30, #217, Poster Session 3, Hall 3 + Hall 2B
Erik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl

POSTER
EC-DIT: Scaling Diffusion Transformers with Expert Choice Routing
10:00 - 12:30, #153, Poster Session 3, Hall 3 + Hall 2B
Haotian Sun (Georgia Institute of Technology), Tao Lei, Bowen Zhang, Yanghao Li, Haoshuo Huang, Ruoming Pang, Bo Dai (Georgia Institute of Technology), Nan Du

POSTER
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
10:00 - 12:30, #191, Poster Session 3, Hall 3 + Hall 2B
Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan

POSTER
Language Models Know More Than They Show: Exploring Hallucinations From the Model's Viewpoint
10:00 - 12:30, #233, Poster Session 3, Hall 3 + Hall 2B
Hadas Orgad (Technion), Michael Toker (Technion), Zorik Gekhman (Technion), Roi Reichart (Technion), Idan Szpektor (Google Research), Hadas Kotek, Yonatan Belinkov (Technion)

POSTER
Large-Scale Image-Caption Data in Improving Multimodal Foundation Models
10:00 - 12:30, #256, Poster Session 3, Hall 3 + Hall 2B
Jeff Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Wenze Hu, Juan Lao Tebar, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang

POSTER
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
10:00 - 12:30, #223, Poster Session 3, Hall 3 + Hall 2B
Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier Biard, Jeff Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang

POSTER
MMEgo: Towards Building Egocentric Multimodal LLMs for Video QA
10:00 - 12:30, #205, Poster Session 3, Hall 3 + Hall 2B
Hanrong Ye (Hong Kong University of Science and Technology (HKUST)), Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin (UCLA), Yanghao Li, Bowen Zhang, Haoxuan You, Jiasen Lu, Dan Xu (HKUST), Zhe Gan, Yinfei Yang

POSTER
The AdEMAMix Optimizer: Better, Faster, Older
10:00 - 12:30, #379, Poster Session 3, Hall 3 + 2B
Matteo Pagliardini (EPFL), Pierre Ablin, David Grangier

POSTER
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
10:00 - 12:30, #596, Poster Session 3, Hall 3 + 2B
Jason Ramapuram, Federico Danieli, Eeshan Gunesh Dhekane, Floris Weers, Dan Busbridge, Pierre Ablin, Tatiana Likhomanenko, Jagrit Digani, Zijin Gu, Amitis Shidani, Russ Webb

POSTER
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization
10:00 - 12:30, #540, Poster Session 3, Hall 3 + Hall 2B
Law Liu (Tsinghua University), Felix Bai, Zhiyun Lu, Yanchao Sun, Xiang Kong, Simon Wang, Jiulong Shan, Lijie Wen (Tsinghua University), Philip S. Yu (University of Illinois at Chicago), Meng Cao

SOCIAL
Women in Machine Learning (WiML)
12:30 - 14:00, Conference GHJ
Helen Zhou and Nandita Bhaskhar will represent Apple at the WiML social.

POSTER
Do LLMs Know Internally When They Follow Instructions?
15:00 - 17:30, #534, Poster Session 4, Hall 3 + Hall 2B
Juyeon Heo (University of Cambridge), Christina Heinze-Deml, Oussama Elachqar, Shirley Ren, Udhay Nallasamy, Andy Miller, Kwan Ho Ryan Chan (University of Pennsylvania), Jaya Narain

POSTER
Does Spatial Cognition Emerge in Frontier Models?
15:00 - 17:30, #251, Poster Session 4, Hall 3 + Hall 2B
Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Krähenbühl, Vladlen Koltun

POSTER
Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement
15:00 - 17:30, #351, Poster Session 4, Hall 3 + Hall 2B
Gaurav Patel (Purdue University), Chris Sandino, Behrooz Mahasseni, Ellen Zippi, Erdrin Azemi, Ali Moin, Juri Minxha

POSTER
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
15:00 - 17:30, #223, Poster Session 4, Hall 3 + Hall 2B
Iman Mirzadeh, Keivan Alizadeh Vahid, Hooman Shahrokhi (Washington State University), Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

POSTER
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
15:00 - 17:30, #218, Poster Session 4, Hall 3 + Hall 2B
Yusu Qian, Hanrong Ye (HKUST), Jean-Philippe Fauconnier Biard, Peter Grasch, Yinfei Yang, Zhe Gan

ORAL PRESENTATION
Cut Your Losses in Large-Vocabulary Language Models
15:30 - 15:42, Peridot 204-205
Erik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl

SOCIAL
LatinX in AI
17:00 - 18:30, Conference GHJ
Alejandro Newell and Miguel Sarabia del Castillo will represent Apple at the LatinX in AI social.

Saturday, April 26

POSTER
A Formal Framework for Understanding Length Generalization in Transformers
10:00 - 12:30, #457, Poster Session 5, Hall 3 + Hall 2B
Xinting Huang (Saarland University), Andy Yang (University of Notre Dame), Yash Sarrof (Saarland University), Mark Rofin (Saarland University), Satwik Bhattamishra (University of Oxford), Andreas Krebs (University of Tübingen), Hattie Zhou (MILA), Preetum Nakkiran, Michael Hahn (Saarland University)

POSTER
Disentangled Representational Learning with the Gromov-Monge Gap
10:00 - 12:30, #603, Poster Session 5, Hall 3 + Hall 2B
Théo Uscidda (CREST-ENSAE), Lucas Eyring (TUM), Karsten Roth (Tübingen), Fabian Theis (TUM), Zeynep Akata (TUM), Marco Cuturi

POSTER
Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics
10:00 - 12:30, #50, Poster Session 5, Hall 3 + Hall 2B
Siddhant Arora (CMU), Zhiyun Lu, Chung-Cheng Chiu, Ruoming Pang, Shinji Watanabe (CMU)

POSTER
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
10:00 - 12:30, #609, Poster Session 5, Hall 3 + Hall 2B
Shansan Gong (HKU), Shivam Agarwal (UIUC), Yizhe Zhang, Lin Zheng (HKU), Jiacheng Ye (HKU), Mukai Li (HKU), Chenxin An (HKU), Hao Peng (UIUC), Lingpeng Kong (HKU)

POSTER
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling
10:00 - 12:30, #286, Poster Session 5, Hall 3 + Hall 2B
David Grangier, Simin Fan (EPFL), Skyler Seto, Pierre Ablin

POSTER
CoMotion: Concurrent Multi-person 3D Motion Through Time
15:00 - 17:30, #127, Poster Session 6, Hall 3 + Hall 2B
Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan Richter, Vladlen Koltun

POSTER
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
15:00 - 17:30, #625, Poster Session 4, Hall 3 + Hall 2B
Jiatao Gu, Shuangfei Zhai, Yuyang Wang, Qihang Zhang (The Chinese University of Hong Kong), Yizhe Zhang, Dinghuai Zhang (Mila), Navdeep Jaitly, Josh Susskind

POSTER
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
15:00 - 17:30, #115, Poster Session 6, Hall 3 + Hall 2B
Aleksei Bochkovskii, Amael Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan Richter, Vladlen Koltun

POSTER
RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data
15:00 - 17:30, #17, Poster Session 6, Hall 3 + Hall 2B
Max Xu (UIUC), Jaya Narain, Greg Darnell, Hyewon Jeong (MIT), Haraldur Hallgrimsson, Darren Forde, Richard Fineman, James M. Rehg (UIUC), Karthik Jayaraman Raghuram, Shirley Ren

POSTER
Simple ReFlow: Improved Techniques for Fast Flow Models
15:00 - 17:30, #581, Poster Session 6, Hall 3 + Hall 2B
Beomsu Kim, Yu-Guan Hsieh, Bahjat Kawar, Marco Cuturi, Jong Chul Ye (KAIST), James Thornton, Michal Klein

SOCIAL
Queer in AI
17:00 - 18:30, Conference GHJ
Azim Yusoff, Kevin Miao, and Nate True will represent Apple at the Queer in AI social.

Sunday, April 27

WORKSHOP
Foundation Models in the Wild 2025
08:00 – 17:15, Hall 4, #6
- POSTER
- FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
- Cheng-Yu Hsieh (University of Washington), Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Hadi Pour Ansari

WORKSHOP
Sparsity in LLMs (SLLM): Deep Dive into Mixture of Experts, Quantization, Hardware, and Inference
09:00 - 18:00, Hall 4, #7
- POSTER
- From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs
- Kumari Nishu, Sachin Mehta, Samira Abnar, Mehrdad Farajtabar, Max Horton, Mahyar Najibi, Moin Nabi, Minsik Cho, Devang Naik
- ORAL PRESENTATION AND POSTER
- Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
- Samira Abnar, Harshay Shah (MIT), Dan Busbridge, Alaaeldin El-Nouby, Josh Susskind, Vimal Thilak

Monday, April 28

WORKSHOP
Scalable Optimization for Efficient and Adaptive Foundation Models (SCOPE) 2025
08:15 – 17:30, Hall 4, #7
- POSTER
- KV Prediction for Improved Time to First Token
- Max Horton, Qingqing Cao, Frank Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi
- ORAL
- M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
- Nikhil Bhendawade, Mahyar Najibi, Irina Belousova, Devang Naik

WORKSHOP
I Can't Believe It's Not Better: Challenges in Applied Deep Learning (ICBINB) 2025
09:00 - 18:00, Hall 4, #1
- POSTER
- Modeling Speech Emotion With Label Variance and Analyzing Performance Across Speakers and Unseen Acoustic Conditions
- Vikram Mitra, Tien Dung Tran, Amrit Romana, Erdrin Azemi

Technical Demos

Visit Apple’s booth at Singapore EXPO, Booth C03, to see our technical demos during exhibition hours:

DEMO
FastVLM
FastVLM is a family of mobile-friendly vision language models. These on-device models use a mix of CNN and transformer encoding techniques. Designed specifically for on-device applications like chatbots, captions, and image finders. Together, they optimize the balance between accuracy and speed.

DEMO
Depth Pro
Zero-shot monocular depth estimation from images without needing to know anything about the camera during training. Depth Pro can generalize to a wide variety of images including in-the-wild internet photos, low-light, text, and motion-blurred images from a smartphone. It uses a query-based architecture to offer state-of-the-art vision transformer modeling, and it works with both RGB and depth at multiple scales. Results show that Depth Pro has unmatched capability in out-of-domain generalization and accuracy, and it works with all kinds of photos. Absolute depth cues in each local region are provided.

Accepted Papers

Adaptive Batch Size for Privately Finding Second-order Stationary Points
Daogao Liu (University of Washington), Kunal Talwar

The AdEMAMix Optimizer: Better, Faster, Older
Matteo Pagliardini (EPFL), Pierre Ablin, David Grangier

CoMotion: Concurrent Multi-person 3D Motion Through Time
Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan Richter, Vladlen Koltun

Controlling Language and Diffusion Models by Transporting Activations
Pau Rodríguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau

Cut Your Losses in Large-Vocabulary Language Models
Erik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
Jiatao Gu, Shuangfei Zhai, Yuyang Wang, Qihang Zhang (The Chinese University of Hong Kong), Yizhe Zhang, Dinghuai Zhang (Mila), Navdeep Jaitly, Josh Susskind

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Aleksei Bochkovskii, Amael Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan Richter, Vladlen Koltun

Disentangled Representational Learning with the Gromov-Monge Gap
Théo Uscidda (CREST-ENSAE), Lucas Eyring (TUM), Karsten Roth (Tübingen), Fabian Theis (TUM), Zeynep Akata (TUM), Marco Cuturi

Do LLMs Estimate Uncertainty Well in Instruction-Following?
Juyeon Heo (University of Cambridge), Miao Xiong (National University of Singapore), Christina Heinze-Deml, Jaya Narain

Do LLMs Know Internally When They Follow Instructions?
Juyeon Heo (University of Cambridge), Christina Heinze-Deml, Oussama Elachqar, Shirley Ren, Udhay Nallasamy, Andy Miller, Kwan Ho Ryan Chan (University of Pennsylvania), Jaya Narain

Does Spatial Cognition Emerge in Frontier Models?
Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Krähenbühl, Vladlen Koltun

EC-DiT: Scaling Diffusion Transformers With Expert Choice Routing
Haotian Sun (Georgia Institute of Technology), Tao Lei, Bowen Zhang, Yanghao Li, Haoshuo Huang, Ruoming Pang, Bo Dai (Georgia Institute of Technology), Nan Du

Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement
Gaurav Patel (Purdue University), Chris Sandino, Behrooz Mahasseni, Ellen Zippi, Erdrin Azemi, Ali Moin, Juri Minxha

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
Zhangheng Li, Keen You, Haotian (AIML) Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan

A Formal Framework for Understanding Length Generalization in Transformers
Xinting Huang (Saarland University), Andy Yang (University of Notre Dame), Yash Sarrof (Saarland University), Mark Rofin (Saarland University), Satwik Bhattamishra (University of Oxford), Andreas Krebs (University of Tübingen), Hattie Zhou (MILA), Preetum Nakkiran, Michael Hahn (Saarland University)

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
Iman Mirzadeh, Keivan Alizadeh Vahid, Hooman Shahrokhi (Washington State University), Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions
Tal Herman (Weizmann Institute of Science), Guy Rothblum

Language Models Know More Than They Show: Exploring Hallucinations From the Model's Viewpoint
Hadas Orgad (Technion), Michael Toker (Technion), Zorik Gekhman (Technion), Roi Reichart (Technion), Idan Szpektor (Google Research), Hadas Kotek, Yonatan Belinkov (Technion)

Large-Scale Image-Caption Data in Improving Multimodal Foundation Models
Jeff Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Wenze Hu, Juan Lao Tebar, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
Yusu Qian, Hanrong Ye (HKUST), Jean-Philippe Fauconnier Biard, Peter Grasch, Yinfei Yang, Zhe Gan

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier Biard, Jeff Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang

MMEgo: Towards Building Egocentric Multimodal LLMs for Video QA
Hanrong Ye (Hong Kong University of Science and Technology (HKUST)), Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin (UCLA), Yanghao Li, Bowen Zhang, Haoxuan You, Jiasen Lu, Dan Xu (HKUST), Zhe Gan, Yinfei Yang

No Need to Talk: Training Mixture of Language Models Independently
Anastasiia Filippova (EPFL), Ronan Collobert, Angelos Katharopoulos, David Grangier

On the Modeling Capabilities of Large Language Models for Sequential Decision Making
Martin Klissarov (McGill University / Mila), Devon Hjelm, Alexander Toshev, Bogdan Mazoure

Provable Uncertainty Decomposition via Higher-Order Calibration
Gustaf Ahdritz (Harvard University), Aravind Gollakota, Parikshit Gopalan, Charlotte Peale (Stanford University), Udi Wieder

RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data
Max Xu (UIUC), Jaya Narain, Greg Darnell, Hyewon Jeong (MIT), Haraldur Hallgrimsson, Darren Forde, Richard Fineman, James M. Rehg (UIUC), Karthik Jayaraman Raghuram, Shirley Ren

Scaling Diffusion Language Models via Adaptation From Autoregressive Models
Shansan Gong (HKU), Shivam Agarwal (UIUC), Yizhe Zhang, Lin Zheng (HKU), Jiacheng Ye (HKU), Mukai Li (HKU), Chenxin An (HKU), Hao Peng (UIUC), Lingpeng Kong (HKU)

SeedLM: Compressing LLM Weights through Seeds of a Pseudo-Random Generator
Rasoul Shafipour, David Harrison, Max Horton, Jeff Marker, Houman Bedayat, Sachin Mehta (Meta), Mohammad Rastegari (Meta), Mahyar Najibi, Saman Naderiparizi

Simple ReFlow: Improved Techniques for Fast Flow Models
Beomsu Kim, Yu-Guan Hsieh, Bahjat Kawar, Marco Cuturi, Jong Chul Ye (KAIST), James Thornton, Michal Klein

Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
Shengyu Feng (CMU), Xiang Kong, Shuang Ma, Aonan Zhang, Dong Yin, Chong Wang, Ruoming Pang, Yiming Yang (CMU)

Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics
Siddhant Arora (CMU), Zhiyun Lu, Chung-Cheng Chiu, Ruoming Pang, Shinji Watanabe (CMU)

Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling
David Grangier, Simin Fan (EPFL), Skyler Seto, Pierre Ablin

Theory, Analysis, and Best Practices for Sigmoid Self-Attention
Jason Ramapuram, Federico Danieli, Eeshan Gunesh Dhekane, Floris Weers, Dan Busbridge, Pierre Ablin, Tatiana Likhomanenko, Jagrit Digani, Zijin Gu, Amitis Shidani, Russ Webb

TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization
Law Liu (Tsinghua University), Felix Bai, Zhiyun Lu, Yanchao Sun, Xiang Kong, Simon Wang, Jiulong Shan, Lijie Wen (Tsinghua University), Philip S. Yu (University of Illinois at Chicago), Meng Cao

Workshop Accepted Papers

FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
Cheng-Yu Hsieh (University of Washington), Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Hadi Pour Ansari

From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs
Kumari Nishu, Sachin Mehta, Samira Abnar, Mehrdad Farajtabar, Max Horton, Mahyar Najibi, Moin Nabi, Minsik Cho, Devang Naik

KV Prediction for Improved Time to First Token
Max Horton, Qingqing Cao, Frank Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
Nikhil Bhendawade, Mahyar Najibi, Irina Belousova, Devang Naik

Modeling Speech Emotion With Label Variance and Analyzing Performance Across Speakers and Unseen Acoustic Conditions
Vikram Mitra, Tien Dung Tran, Amrit Romana, Erdrin Azemi

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
Samira Abnar, Harshay Shah (MIT), Dan Busbridge, Alaaeldin El-Nouby, Josh Susskind, Vimal Thilak

Acknowledgements

Alexander Toshev and Ronan Collobert are Senior Area Chairs.

Chen Huang, Chong Wang, Eugene Ndiaye, Harsh Agrawal, Pau Rodriguez, Preetum Nakkiran, Stephan Richter, Yizhe Zhang, and Zhe Gan are Area Chairs.

Arno Blaas is a Workshop Co-Organizer, and Nicholas Apostoloff and Niv Sivakumar are Workshop Reviewers for “I Can’t Believe It’s Not Better: Challenges in Deep Learning (ICBINB) 2025”.

Agni Kumar, Andrew Szot, Arno Blaas, Barry Theobald, Bhuwan Dhingra, Devon Helm, Fartash Faghri, Hadi Pour Ansari, Haoxuan You, Huangjie Zheng, Iman Mirzadeh, Juri Minxha, Kunal Talwar, Lin Chen, Louis Bethune, Luca Zappella, Maartje ter Hoeve, Max Horton, Michael Kirchhof, Nicholas Apostoloff, Pavan Kumar Anasosalu Vasu, Philipp Krähenbühl, Pierre Ablin, Rasoul Shafipour, Raviteja Vemulapalli, Rin Metcalf Susa, Ruochen (Esther) Zhao, Santhosh Kumar Ramakrishnan, Vimal Thilak, Xavier Suau Cuadros, Xiaoming Zhao, and Zakhar Shumaylov are Reviewers.