eventAugust 16, 2024

Interspeech 2024

Apple is sponsoring the 25th annual Interspeech conference, in Kos, Greece, September 1 to 5. Interspeech focuses on research surrounding the science and technology of spoken language processing. Below is the schedule of Apple-sponsored workshops and events at Interspeech 2024.

Schedule

Stop by the Apple booth in the Kipriotis Hotels & Conference Center, Floor 1, Booth #4, from 10:30 - 19:00 on Monday, September 2; 09:30 - 18:00 on Tuesday, September 3, and Wednesday, September 4; and 10:30 - 16:00 on Thursday, September 5 (all times GMT+3).

Saturday, August 31

WORKSHOP
Young Female* Researchers in Speech Workshop (YFRSW)
13:15 - 14:15 GMT+3, 2nd Lyceum of Kos
Carolina Brum will be representing Apple during the mentoring hour at the workshop.

Wednesday, September 4

POSTER
Positional Description for Numerical Normalization
10:00 - 12:00 GMT+3, Poster Area 4B
Deepanshu Gupta, Javier Latorre Martinez

POSTER
Novel-view Acoustic Synthesis from 3D Reconstructed Rooms
13:30 - 15:30 GMT+3, Poster Area 2A
Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag Ranjan, Oncel Tuzel, Miguel Sarabia del Castillo, Rick Chang

ORAL
RepCNN: Micro-sized, Mighty Models for Wakeword Detection
14:30 - 14:50 GMT+3, Hippocrates
Arnav Kundu, Prateeth Nayak, Priyanka Padmanabhan, Devang Naik

ORAL
Transformer-based Model for ASR N-Best Rescoring and Rewriting
14:50 - 15:10 GMT+3, Aegle B
Edwin Kang, Christophe Van Gysel, Man-Hung Siu

Thursday, September 5

POSTER
Can You Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features?
10:00 - 12:00 GMT+3, Yanis Club
Zak Aldeneh, Takuya Higuchi, Jee-weon Jung, Skyler Seto, Tatiana Likhomanenko, Stephen Shum, Ahmed Hussen Abdelaziz, Shinji Watanabe

POSTER
Enhancing CTC-based Speech Recognition with Diverse Modeling Units
10:00 - 12:00 GMT+3, Poster Area 3B
Michael Han, Zhihong Lei, Mingbin Xu, Xingyu Na, Zhen Huang

ORAL
ESPnet-SPK: Full Pipeline Speaker Verification Toolkit with Multiple Reproducible Recipes, Self-Supervised Front-Ends, and Off-the-Shelf Models
11:00 - 11:20 GMT+3, Iasso
Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zak Aldeneh, Takuya Higuchi, Barry Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe

POSTER
Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness
13:30 - 15:30 GMT+3, Poster Area 2A
Satyam Kumar, Sai Srujana Buddi, Oggy Sarawgi, Vineet Garg, Shivesh Ranjan, Oggi Rudovic, Ahmed Hussen Abdelaziz, Saurabh Adya

POSTER
Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection
13:30 - 15:30 GMT+3, Poster Area 2A
Shruti Palaskar, Oggi Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed Tewfik

Accepted Papers

Can You Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features?

Zak Aldeneh, Takuya Higuchi, Jee-weon Jung, Skyler Seto, Tatiana Likhomanenko, Stephen Shum, Ahmed Hussen Abdelaziz, Shinji Watanabe

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness

Satyam Kumar, Sai Srujana Buddi, Oggy Sarawgi, Vineet Garg, Shivesh Ranjan, Oggi Rudovic, Ahmed Hussen Abdelaziz, Saurabh Adya

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

Michael Han, Zhihong Lei, Mingbin Xu, Xingyu Na, Zhen Huang

ESPnet-SPK: Full Pipeline Speaker Verification Toolkit with Multiple Reproducible Recipes, Self-Supervised Front-Ends, and Off-the-Shelf Models

Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zak Aldeneh, Takuya Higuchi, Barry Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

Shruti Palaskar, Oggi Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed Tewfik

Novel-view Acoustic Synthesis from 3D Reconstructed Rooms

Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag Ranjan, Oncel Tuzel, Miguel Sarabia del Castillo, Rick Chang

Positional Description for Numerical Normalization

Deepanshu Gupta, Javier Latorre Martinez

RepCNN: Micro-sized, Mighty Models for Wakeword Detection

Arnav Kundu, Prateeth Nayak, Priyanka Padmanabhan, Devang Naik

Transformer-based Model for ASR N-Best Rescoring and Rewriting

Edwin Kang, Christophe Van Gysel, Man-Hung Siu

Acknowledgements

Arnav Kundu, Ilya Oparin, Javier Latorre Martinez, Lyan Verwimp, Markus Nussbaum-Thom, Mirko Hannemann, Thiago Fraga da Silva, Sameer Badaskar, Tuomo Raitio, and Tatiana Likhomanenko are reviewers for Interspeech.

Interspeech 2024

Schedule

Saturday, August 31

Wednesday, September 4

Thursday, September 5

Accepted Papers

Acknowledgements

Related readings and updates.

International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2025

International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2023

Discover opportunities in Machine Learning.