Home 9 Conferences 9 ISMIR 2022

ISMIR 2022

Full Proceedings

Proceedings of the 23nd International Society for Music Information Retrieval (ISMIR) Conference
Bengaluru, India, 4-8 Dec, 2022 (ISBN: 978-1-7327299-2-6)

Papers

Interpreting Song Lyrics with an Audio-Informed Pre-trained Language Model 19-26
Yixiao Zhang, Junyan Jiang, Gus Xia, Simon Dixon

Toward postprocessing-free neural networks for joint beat and downbeat estimation 27-35
Tsung-Ping Chen, Li Su

Music Translation: Generating Piano Arrangements in Different Playing Levels 36-43
Matan Gover, Oded Zewi

Scaling Polyphonic Transcription with Mixtures of Monophonic Transcriptions 44-51
Ian Simon, Joshua Gardner, Curtis Hawthorne, Ethan Manilow, Jesse Engel

Attention-based audio embeddings for query-by-example 52-58
Anup Singh, Kris Demuynck, Vipul Arora

SIATEC-C: Computationally efficient repeated pattern discovery in polyphonic music 59-66
Otso Björklund

Tailed U-Net: Multi-Scale Music Representation Learning 67-75
Marcel A Vélez Vásquez, John Ashley Burgoyne

DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation 76-83
Da-Yi Wu, Wen-Yi Hsiao, Fu-Rong Yang, Oscar D Friedman, Warren Jackson, Scott Bruzenak, Yi-Wen Liu, Yi-Hsuan Yang

Equivariant self-supervision for musical tempo estimation 84-92
Elio Quinton

How Music features and Musical Data Representations Affect Objective Evaluation of Music Composition: A Review of CSMT Data Challenge 2020 93-99
Yuqiang Li, Shengchen Li, George Fazekas

YM2413-MDB: A Multi-Instrumental FM Video Game Music Dataset with Emotion Annotations 100-108
Eunjin Choi, Yoonjin Chung, Seolhee Lee, Jongik Jeon, Taegyun Kwon, Juhan Nam

Detecting Symmetries of All Cardinalities With Application to Musical 12-Tone Rows 109-115
Anil Venkatesh, Viren Sachdev

The power of deep without going deep? A study of HDPGMM music representation learning 116-124
Jaehun Kim, Cynthia C. S. Liem

Pop Music Generation with Controllable Phrase Lengths 125-131
Daiki Naruse, Tomoyuki Takahata, Yusuke Mukuta, Tatsuya Harada

Exploiting Pre-trained Feature Networks for Generative Adversarial Networks in Audio-domain Loop Generation 132-140
Yen-Tung Yeh, Yi-Hsuan Yang, Bo-Yu Chen

Modeling the rhythm from lyrics for melody generation of pop songs 141-148
Daiyu Zhang, Ju-Chiang Wang, Katerina Kosta, Jordan B. L. Smith, Shicen Zhou

Visualization for AI-Assisted Composing 151-159
Simeon Rau, Frank Heyen, Stefan Wagner, Michael Sedlmair

Retrieving musical information from neural data: how cognitive features enrich acoustic ones 160-168
Ellie Bean Abrams, Eva Muñoz Vidal, Claire Pelofi, Pablo Ripollés

Beat Transformer: Demixed Beat and Downbeat Tracking with Dilated Self-Attention 169-177
Jingwei Zhao, Gus Xia, Ye Wang

Sketching the Expression: Flexible Rendering of Expressive Piano Performance with Self-Supervised Learning 178-185
Seungyeon Rhyu, Sarah Kim, Kyogu Lee

Exploiting Device and Audio Data to Tag Music with User-Aware Listening Contexts 186-192
Karim M. Ibrahim, Elena V. Epure, Geoffroy Peeters, Gaël Richard

Jukedrummer: Conditional Beat-aware Audio-domain Drum Accompaniment Generation via Transformer VQ-VAE 193-200
Yueh-Kao Wu, Ching-Yu Chiu, Yi-Hsuan Yang

Learning Hierarchical Metrical Structure Beyond Measures 201-209
Junyan Jiang, Daniel Chin, Yixiao Zhang, Gus Xia

Mid-level Harmonic Audio Features for Musical Style Classification 210-217
Francisco C. F. Almeida, Gilberto Bernardes, Christof Weiss

Distortion Audio Effects: Learning How to Recover the Clean Signal 218-225
Johannes Imort, Giorgio Fabbro, Marco A Martinez Ramirez, Stefan Uhlich, Yuichiro Koyama, Yuki Mitsufuji

End-to-End Full-Page Optical Music Recognition for Mensural Notation 226-232
Antonio Ríos-Vila, Jose M. Inesta, Jorge Calvo-Zaragoza

Mel Spectrogram Inversion with Stable Pitch 233-239
Bruno Di Giorgi, Mark Levy, Richard Sharp

Latent feature augmentation for chorus detection 240-247
Xingjian Du, Huidong Liang, Yuan Wan, Yuheng Lin, Ke Chen, Bilei Zhu, Zejun Ma

AccoMontage2: A Complete Harmonization and Accompaniment Arrangement System 248-255
Li Yi, Haochen Hu, Jingwei Zhao, Gus Xia

Supervised and Unsupervised Learning of Audio Representations for Music Understanding 256-263
Matthew C Mccallum, Filip Korzeniowski, Sergio Oramas, Fabien Gouyon, Andreas Ehmann

Generating Coherent Drum Accompaniment with Fills and Improvisations 264-271
Rishabh A Dahale, Vaibhav Vinayak Talwadker, Preeti Rao, Prateek Verma

Bottlenecks and solutions for audio to score alignment research 272-279
Alia Morsi, Xavier Serra

Raga Classification From Vocal Performances Using Multimodal Analysis 283-290
Martin Clayton, Preeti Rao, Nithya Shikarpur, Sujoy Roychowdhury, Jin Li

Traces of Globalization in Online Music Consumption Patterns and Results of Recommendation Algorithms 291-297
Oleg Lesota, Emilia Parada-Cabaleiro, Stefan Brandl, Elisabeth Lex, Navid Rekabsaz, Markus Schedl

Network Analyses for Cross-Cultural Music Popularity 298-305
Kongmeng Liew, Vipul Mishra, Yangyang Zhou, Elena V. Epure, Romain Hennequin, Shoko Wakamiya, Eiji Aramaki

Three related corpora in Middle Byzantine music notation and a preliminary comparative analysis 306-313
Polykarpos Polykarpidis, Dionysios Kalofonos, Dimitrios Balageorgos, Christina Anagnostopoulou

Playing Technique Detection by Fusing Note Onset Information in Guzheng Performance 314-320
Dichucheng Li, Yulun Wu, Qinyu Li, Jiahao Zhao, Yi Yu, Fan Xia, Wei Li

KDC: an open corpus for computational research of dastgāhi music 321-328
Babak Nikzat, Rafael Caro Repetto

Inaccurate Prediction or Genre Evolution? Rethinking Genre Classification 329-336
Ke Nie

In Search of Sañcāras: Tradition-informed Repeated Melodic Pattern Recognition in Carnatic Music 337-344
Thomas Nuttall, Genís Plaja-Roglans, Lara Pearson, Xavier Serra

Automatic Chinese National Pentatonic Modes Recognition Using Convolutional Neural Network 345-352
Zhaowen Wang, Mingjin Che, Yue Yang, Wen Wu Meng, Qinyu Li, Fan Xia, Wei Li

Teach Yourself Georgian Folk Songs Dataset: A Annotated Corpus Of Traditional Vocal Polyphony 353-360
David Gillman, Atalay Kutlay, Uday Goyat

Adapting meter tracking models to Latin American music 361-368
Lucas S Maia, Martín Rocamora, Luiz W P Biscainho, Magdalena Fuentes

Critiquing Task- versus Goal-oriented Approaches: A Case for Makam Recognition 369-376
Kaustuv Kanti Ganguli, Sertan Şentürk, Carlos Guedes

A Dataset for Greek Traditional and Folk Music: Lyra 377-383
Charilaos Papaioannou, Ioannis Valiantzas, Theodore Giannakopoulos, Maximos Kaliakatsos-Papakostas, Alexandros Potamianos

Analysis and detection of singing techniques in repertoires of J-POP solo singers 384-391
Yuya Yamamoto, Juhan Nam, Hiroko Terasawa

Performance MIDI-to-score conversion by neural beat tracking 395-402
Lele Liu, Qiuqiang Kong, Veronica Morfi, Emmanouil Benetos

Symbolic Music Loop Generation with Neural Discrete Representations 403-410
Sangjun Han, Hyeongrae Ihm, Moontae Lee, Woohyung Lim

Automatic music mixing with deep learning and out-of-domain data 411-418
Marco A Martinez Ramirez, Weihsiang Liao, Chihiro Nagashima, Giorgio Fabbro, Stefan Uhlich, Yuki Mitsufuji

Music-STAR: a Style Translation system for Audio-based Re-instrumentation 419-426
Mahshid Alinoori, Vassilios Tzerpos

Learning Unsupervised Hierarchies of Audio Concepts 427-436
Darius Afchar, Romain Hennequin, Vincent Guigue

Multi-objective Hyper-parameter Optimization of Behavioral Song Embeddings 437-445
Massimo Quadrana, Antoine Larreche-Mouly, Matthias Mauch

ATEPP: A Dataset of Automatically Transcribed Expressive Piano Performance 446-453
Huan Zhang, Jingjing Tang, Syed Rm Rafee, Simon Dixon, George Fazekas, Geraint A. Wiggins

PDAugment: Data Augmentation by Pitch and Duration Adjustments for Automatic Lyrics Transcription 454-461
Chen Zhang, Jiaxing Yu, Luchin Chang, Xu Tan, Jiawei Chen, Tao Qin, Kejun Zhang

Parameter Sensitivity of Deep-Feature based Evaluation Metrics for Audio Textures 462-468
Chitralekha Gupta, Yize Wei, Zequn Gong, Purnima Kamath, Zhuoyao Li, Lonce Wyse

Stability of Symbolic Feature Group Importance in the Context of Multi-Modal Music Classification 469-476
Igor Vatolkin, Cory Mckay

Multi-pitch Estimation meets Microphone Mismatch: Applicability of Domain Adaptation 477-484
Franca Bittner, Marcel Gonzalez, Maike L Richter, Hanna Lukashevich, Jakob Abeßer

Melody transcription via generative pre-training 485-492
Chris Donahue, John Thickstun, Percy Liang

Source Separation of Piano Concertos with Test-Time Adaptation 493-500
Yigitcan Özer, Meinard Müller

Counterpoint Error-Detection Tools for Optical Music Recognition of Renaissance Polyphonic Music 501-508
Martha E Thomae Elias, Julie Cumming, Ichiro Fujinaga

A Dataset of Symbolic Texture Annotations in Mozart Piano Sonatas 509-516
Louis Couturier, Louis Bigo, Florence Leve

Violin Etudes: A Comprehensive Dataset for f0 Estimation and Performance Analysis 517-524
Nazif Can Tamer, Pedro Ramoneda, Xavier Serra

Checklist Models for Improved Output Fluency in Piano Fingering Prediction 525-531
Nikita Srivatsan, Taylor Berg-Kirkpatrick

Sonus Texere! Automated Dense Soundtrack Construction for Books using Movie Adaptations 535-542
Jaidev Shriram, Makarand Tapaswi, Vinoo Alluri

Musika! Fast Infinite Waveform Music Generation 543-550
Marco Pasini, Jan Schlüter

Symphony Generation with Permutation Invariant Language Model 551-558
Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu, Maosong Sun

MuLan: A Joint Embedding of Music Audio and Natural Language 559-566
Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P W Ellis

MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks 567-574
Peiling Lu, Xu Tan, Botao Yu, Tao Qin, Sheng Zhao, Tie-Yan Liu

Towards robust music source separation on loud commercial music 575-582
Chang-Bin Jeon, Kyogu Lee

Towards Quantifying the Strength of Music Scenes Using Live Event Data 583-590
Michael Zhou, Andrew Mcgraw, Douglas R Turnbull

Learning Multi-Level Representations for Hierarchical Music Structure Analysis. 591-597
Morgan Buisson, Brian Mcfee, Slim Essid, Hélène C. Crayencour Crayencour

Multi-instrument Music Synthesis with Spectrogram Diffusion 598-607
Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Joshua Gardner, Ethan Manilow, Jesse Engel

DDX7: Differentiable FM Synthesis of Musical Instrument Sounds 608-616
Franco Caspe, Andrew Mcpherson, Mark Sandler

Singing beat tracking with Self-supervised front-end and linear transformers 617-624
Mojtaba Heydari, Zhiyao Duan

EnsembleSet: a new high quality synthesised dataset for chamber ensemble separation 625-632
Saurjya Sarkar, Emmanouil Benetos, Mark Sandler

End-to-End Lyrics Transcription Informed by Pitch and Onset Estimation 633-639
Tengyu Deng, Eita Nakamura, Kazuyoshi Yoshii

Contrastive Audio-Language Learning for Music 640-649
Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas

MusAV: A dataset of relative arousal-valence annotations for validation of audio models 650-658
Dmitry Bogdanov, Xavier Lizarraga-Seijas, Pablo Alonso-Jiménez, Xavier Serra

What is missing in deep music generation? A study of repetition and structure in popular music 659-666
Shuqi Dai, Huiran Yu, Roger B Dannenberg

Heterogeneous Graph Neural Network for Music Emotion Recognition 667-674
Angelo Cesar Mendes Da Silva, Diego F Silva, Ricardo Marcondes Marcacini

And what if two musical versions don’t share melody, harmony, rhythm, or lyrics ? 677-684
Mathilde Abrassart, Guillaume Doras

A diffusion-inspired training strategy for singing voice extraction in the waveform domain 685-693
Genís Plaja-Roglans, Marius Miron, Xavier Serra

A Model You Can Hear: Audio Identification with Playable Prototypes 694-700
Romain Loiseau, Baptiste Bouvier, Yann Teytaut, Elliot Vincent, Mathieu Aubry, Loic Landrieu

An Exploration of Generating Sheet Music Images 701-708
Marcos Acosta, Irmak Bukey, T J Tsai

HPPNet: Modeling the Harmonic Structure and Pitch Invariance in Piano Transcription 709-716
Weixing Wei, Peilin Li, Yi Yu, Wei Li

Generating music with sentiment using Transformer-GANs 717-725
Pedro L T Neves, José Fornari, João B Florindo

Improving Choral Music Separation through Expressive Synthesized Data from Sampled Instruments 726-732
Ke Chen, Hao-Wen Dong, Yi Luo, Julian Mcauley, Taylor Berg-Kirkpatrick, Miller Puckette, Shlomo Dubnov

Ethics of Singing Voice Synthesis: Perceptions of Users and Developers 733-740
Kyungyun Lee, Gladys Hitt, Emily Terada, Jin Ha Lee

Emotion-driven Harmonisation And Tempo Arrangement of Melodies Using Transfer Learning 741-748
Takuya Takahashi, Mathieu Barthet

Using Activation Functions for Improving Measure-Level Audio Synchronization 749-755
Yigitcan Özer, Matej Ištvánek, Vlora Arifi-Müller, Meinard Müller

A deep learning method for melody extraction from a polyphonic symbolic music representation 756-763
Katerina Kosta, Wei Tsung Lu, Gabriele Medeot, Pierre Chanquion

A Reproducibility Study on User-centric MIR Research and Why it is Important 764-771
Peter Knees, Bruce Ferwerda, Andreas Rauber, Sebastian Strumbelj, Annabel Resch, Laurenz Tomandl, Valentin Bauer, Fung Yee Tang, Josip Bobinac, Amila Ceranic, Riad Dizdar

Music Separation Enhancement with Generative Modeling 772-780
Noah Schaffer, Boaz Cogan, Ethan Manilow, Max Morrison, Prem Seetharaman, Bryan Pardo

SampleMatch: Drum Sample Retrieval by Musical Context 781-788
Stefan Lattner

A Transformer-Based “Spellchecker” for Detecting Errors in OMR Output 789-796
Timothy De Reuse, Ichiro Fujinaga

“More than words”: Linking Music Preferences and Moral Values through Lyrics 797-805
Vjosa Preniqi, Kyriaki Kalimeri, Charalampos Saitis

A unified model for zero-shot singing voice conversion and synthesis 809-816
Jui-Te Wu, Jun-You Wang, Jyh-Shing Roger Jang, Li Su

Semantic Control of Generative Musical Attributes 817-824
Stewart Greenhill, Majid Abdolshah, Vuong Le, Sunil Gupta, Svetha Venkatesh

Music Representation Learning Based on Editorial Metadata from Discogs 825-833
Pablo Alonso-Jiménez, Xavier Serra, Dmitry Bogdanov

Melody Infilling with User-Provided Structural Context 834-841
Chih-Pin Tan, Alvin W Y Su, Yi-Hsuan Yang

Robust Melody Track Identification in Symbolic Music 842-849
Xichu Ma, Xiao Liu, Bowen Zhang, Ye Wang

Tracking the Evolution of a Band’s Live Performances over Decades 850-857
Florian Thalmann, Eita Nakamura, Kazuyoshi Yoshii

Evaluating Generative Audio Systems and Their Metrics 858-865
Ashvala Vinay, Alexander Lerch

Representation Learning for the Automatic Indexing of Sound Effects Libraries 866-875
Alison B Ma, Alexander Lerch

Concept-Based Techniques for “Musicologist-Friendly” Explanations in Deep Music Classifiers 876-883
Francesco Foscarin, Katharina Hoedt, Verena Praher, Arthur Flexer, Gerhard Widmer

Verse versus Chorus: Structure-aware Feature Extraction for Lyrics-based Genre Recognition 884-890
Maximilian Mayerl, Stefan Brandl, Günther Specht, Markus Schedl, Eva Zangerle

Transfer Learning of wav2vec 2.0 for Automatic Lyric Transcription 891-899
Longshen Ou, Xiangming Gu, Ye Wang

A Novel Dataset and Deep Learning Benchmark for Classical Music Form Recognition and Analysis 900-907
Daniel Szelogowski, Lopamudra Mukherjee, Benjamin Whitcomb

BAF: An audio fingerprinting dataset for broadcast monitoring 908-916
Guillem Cortès, Alex Ciurana, Emilio Molina, Marius Miron, Owen Meyers, Joren Six, Xavier Serra

Cadence Detection in Symbolic Classical Music using Graph Neural Networks. 917-924
Emmanouil Karystinaios, Gerhard Widmer

Domain Adversarial Training on Conditional Variational Auto-Encoder for Controllable Music Generation 925-932
Jingwei Zhao, Gus Xia, Ye Wang

Modeling perceptual loudness of piano tone: theory and applications 933-940
Yang Qu, Yutian Qin, Lecheng Chao, Hangkai Qian, Ziyu Wang, Gus Xia

On the Impact and Interplay of Input Representations and Network Architectures for Automatic Music Tagging 941-948
Maximilian Damböck, Richard Vogl, Peter Knees