Publications

Xiaoyu Yi, Qi He, Gus Xia, and Ziyu Wang, ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models, in Proceedings of the 51st IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2026. [demo] [code]
Xiaosha Li, Chun Liu, and Ziyu Wang, When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models, in Proceedings of the 51st IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2026. [demo] [code]
Hanwen Zhang*, Kun Fang*, Ziyu Wang, and Ichiro Fujinaga, Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics, in Proceedings of the 51st IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2026. [code]
Kun Fang, Ziyu Wang, and Ichiro Fujinaga, Revisiting Music Encoding for Music-to-Text Large Language Models: What Is Encoded and What Is “Heard”, in Proceedings of Music Encoding Conference (MEI), 2026.
Jingwei Zhao, Ziyu Wang, Gus Xia, and Ye Wang, BOSSA: Learning Music Style Through Cross-Modal Bootstrapping, in NeurIPS 2025 Workshop AI4Music, 2025. [demo]
Longshen Ou, Jingwei Zhao, Ziyu Wang, Gus Xia, Qihao Liang, Torin Hopkins, and Ye Wang, Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization, in Proceedings of the 39th Conference on Neural Information Processing Systems (NeurIPS), 2025. [demo] [code]
Qi He, Gus Xia, and Ziyu Wang, TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure, in Proceedings of the 26th International Society for Music Information Retrieval Conference (ISMIR), 2025. [demo] [code]
Ziyu Wang, Yuxuan Wu, Roger B. Dannenberg, and Gus Xia, Automatic Melody Reduction via Shortest Path Finding, in Proceedings of the 26th International Society for Music Information Retrieval Conference (ISMIR), 2025. [demo] [code]
Kun Fang*, Hanwen Zhang*, Ziyu Wang, and Ichiro Fujinaga, High-Resolution Sustain Pedal Depth Estimation from Piano Audio Across Room Acoustics, in Proceedings of the 26th International Society for Music Information Retrieval Conference (ISMIR), 2025. [code]
Ziyu Wang, Towards Human-Like Music Intelligence via Concept Alignment , PhD Thesis, New York University, 2025.
Tingyu Zhu*, Haoyu Liu*, Ziyu Wang, Zhiming Jiang, and Zeyu Zheng, Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation, in Proceedings of the 42nd International Conference on on Machine Learning (ICML), 2025. [demo] [code]
Yuxuan Wu, Ziyu Wang, Bhiksha Raj, and Gus Xia, Unsupervised Disentanglement of Content and Style via Variance-Invariance Constraints, in Proceedings of the 13th International Conference on Learning Representations (ICLR), 2025. [demo] [code]
Xuanjie Liu*, Cong Zeng*, Shengkun Tang, Ziyu Wang, Zhiqiang Xu, and Gus Xia, Do Large Language Models Perceive Orderly Number Concepts as Humans?, in ICLR 2025 Workshop on Representation Alignment (Re-Align), 2025. [code]
Ziyu Wang, Lejun Min, and Gus Xia, Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models, in Proceedings of the 12th International Conference on Learning Representations (ICLR), spotlight presentation, 2024. [demo] [code]
Kun Fang, Ziyu Wang, Gus Xia, and Ichiro Fujinaga, Exploring GPT's Ability as a Judge in Music Understanding, in Proceedings of the 25th International Society for Music Information Retrieval Conference (ISMIR), 2024. [code]
Jingwei Zhao, Gus Xia, Ziyu Wang, and Ye Wang, Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling, in 38th Conference on Neural Information Processing Systems (NeurIPS), 2024. [demo] [code]
Ruibin Yuan, et al., including Ziyu Wang, ChatMusician: Understanding and Generating Music Intrinsically with LLM, in Findings of the Association for Computational Linguistics (ACL), 2024. [demo] [code]
Yinghao Ma, et al., including Ziyu Wang, Foundation Models for Music: A Survey, in arXiv preprint, arXiv:2408.14340v2 [cs.SD], 2024.
Shiqi Wei, Ziyu Wang, Weiguo Gao, and Gus Xia, Controllable Music Inpainting With Mixed-level and Disentangled Representation, in Proceedings of 48th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023. [demo] [code]
Ziyu Wang, Dejing Xu, Gus Xia, and Ying Shan, Audio-To-Symbolic Arrangement Via Cross-Modal Music Representation Learning, in Proceedings of 47th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022. [music1] [music2] [talk] [code]
Yang Qu*, Yutian Qin*, Lecheng Chao, Hangkai, Qian, Ziyu Wang, and Gus Xia, Modeling Perceptual Loudness of Piano Tone: Theory and Applications, in Proceedings of the 23rd International Society for Music Information Retrieval Conference (ISMIR), 2022. [code]
Ziyu Wang, and Gus Xia, MuseBERT: Pre-training of Music Representation for Music Understanding and Controllable Generation, in Proceedings of the 22nd International Society for Music Information Retrieval Conference (ISMIR), 2021. [code]
Ziyu Wang, Dingsu Wang, Yixiao Zhang and Gus Xia, Learning Interpretable Representation for Controllable Polyphonic Music Generation, in Proceedings of the 21st International Society for Music Information Retrieval Conference (ISMIR), 2020. [music1] [music2] [music3] [talk] [code]
Ziyu Wang, Yiyi Zhang, Yixiao Zhang, Junyan Jiang, Junbo Zhao, and Gus Xia, PianoTree VAE: Structured Representation Learning for Polyphonic Music, in Proceedings of the 21st International Society for Music Information Retrieval Conference (ISMIR), 2020. [talk] [code]
Ziyu Wang*, Ke Chen*, Yiyi Zhang, Junyan Jiang, Maoran Xu, Shuqi Dai, and Gus Xia, POP909: A Pop-Song Dataset for Music Arrangement Generation, in Proceedings of the 21st International Society for Music Information Retrieval Conference (ISMIR), 2020. [code]
Yixiao Zhang, Ziyu Wang, Dingsu Wang, and Gus Xia, BUTTER: A Representation Learning Framework for Bi-directional Music-Sentence Retrieval and Generation, in Proceedings of the 1st Workshop on NLP for Music and Audio (NLP4MusA), 2020. [code]
Ruihan Yang, Dingsu Wang, Ziyu Wang, Tianyao Chen, Junyan Jiang, and Gus Xia, Deep Music Analogy Via Latent Representation Disentanglement, in Proceedings of the 20st International Society for Music Information Retrieval Conference (ISMIR), 2019. [music] [tutorial] [code]
Maoran Xu, Ziyu Wang, and Gus Xia, Transferring Piano Performance Control Across Environments, in Proceedings of the 44th International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019.
Ziyu Wang and Gus Xia, A Framework for Automated Pop-song Melody Generation and Piano Accompaniment Arrangement, in Proceedings of the 20st International Society for Music Information Retrieval Conference (ISMIR), 2019.

* indicates equal contribution.