Publications

Google Scholar

MELLE: Autoregressive Speech Synthesis without Vector Quantization. Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei. Arxiv 2024.
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers. Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei. Arxiv 2024.
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment. Bing Han, Long Zhou, Shujie Liu, Sanyuan Chen, Lingwei Meng, Yanming Qian, Yanqing Liu, Sheng Zhao, Jinyu Li, Furu Wei. Arxiv 2024.
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation. Chenyang Le, Yao Qian, Dongmei Wang, Long Zhou, Shujie Liu, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Sheng Zhao, Michael Zeng. Arxiv 2024.
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations. Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng. Arxiv 2024.
Wavllm: Towards robust and adaptive speech large language model. Shujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei. Arxiv 2024.
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling. Ziqiang Zhang, Long Zhou, Chengyi Wang, Sanyuan Chen, Yu Wu, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, Furu Wei. Arxiv 2023.
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers. Chengyi Wang, Sanyuan Chen, Yu Wu, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, Furu Wei. Arxiv 2023.
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation. Tianrui Wang, Long Zhou, Ziqiang Zhang, Yu Wu, Shujie Liu, Yashesh Gaur, Zhuo Chen, Jinyu Li, Furu Wei. Arxiv 2023.
Boosting Large Language Model for Speech Synthesis: An Empirical Study. Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei. Arxiv 2023.
SpeechLLaMA: On decoder-only architecture for speech-to-text and large language model integration. Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu. ASRU 2023.
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation. Chenyang Le, Yao Qian, Long Zhou, Shujie Liu, Michael Zeng, Xuedong Huang. NeruIPS 2023.
Building High-accuracy Multilingual ASR with Gated Language Experts and Curriculum Training. Eric Sun, Jinyu Li, Yuxuan Hu, Yimeng Zhu, Long Zhou, Jian Xue, Peidong Wang, Linquan Liu, Shujie Liu, Edward Lin, Yifan Gong. ASRU 2023.
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning. Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei. IEEE Transactions on Multimedia. 2022.
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data. Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei. IEEE/ACM Transactions on Audio Speech and Language Processing. 2024.
Robust Data2vec: Noise-robust Speech Representation Learning for ASR by Combining Regression and Improved Contrastive Learning. Qiu-Shi Zhu, Long Zhou, Jie Zhang, Shu-Jie Liu, Yu-Chen Hu, Li-Rong Dai. ICASSP 2023.
Prosody-aware SpeechT5 for Expressive Neural TTS. Yan Deng, Long Zhou, Yuanhao Yi, Shujie Liu, Lei He. ICASSP 2023.
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation. Kun Wei, Long Zhou, Ziqiang Zhang, Liping Chen, Shujie Liu, Lei He, Jinyu Li, Furu Wei. ICASSP 2023.
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers. Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li. Arxiv 2022.
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training. Ziqiang Zhang, Long Zhou, Junyi Ao, Shujie Liu, Lirong Dai, Jinyu Li, Furu Wei. EMNLP 2022.
The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task. Ziqiang Zhang, Junyi Ao, Long Zhou, Shujie Liu, Furu Wei, Jinyu Li. IWSLT 2022.
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data. Junyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu, Haizhou Li, Tom Ko, Lirong Dai, Jinyu Li, Yao Qian, Furu Wei. InterSpeech 2022.
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT. Rui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei, Yu Zhang, Tom Ko, Haizhou Li. InterSpeech 2022.
Speech Pre-training with Acoustic Piece. Shuo Ren, Shujie Liu, Yu Wu, Long Zhou, Furu Wei. InterSpeech 2022.
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing. Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei. ACL 2022.
A Configurable Multilingual Model is All You Need to Recognize All Languages. Long Zhou, Jinyu Li, Eric Sun, Shujie Liu. ICASSP 2022.
Multi-View Self-Attention Based Transformer for Speaker Recognition. Rui Wang, Junyi Ao, Long Zhou, Shujie Liu, Zhihua Wei, Tom Ko, Qing Li, Yu Zhang. ICASSP 2022.
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing. Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei. IEEE Journal of Selected Topics in Signal Processing, 2022.
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation. Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu. NeurIPS 2021 Datasets and Benchmarks Track.
GraphCodeBERT: Pre-training Code Representations with Data Flow. Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, Ming Zhou. ICLR 2021.
CodeBLEU: A Method for Automatic Evaluation of Code Synthesis. Shuo Ren, Daya Guo, Shuai Lu, Long Zhou, Shujie Liu, Duyu Tang, Neel Sundaresan, Ming Zhou, Ambrosio Blanco, Shuai Ma. Arxiv 2020.
Jointly Learning to Repair Code and Generate Commit Message. Jiaqi Bai, Long Zhou, Ambrosio Blanco, Shujie Liu, Furu Wei, Ming Zhou, Zhoujun Li. EMNLP 2021.
Grammar-Based Patches Generation for Automated Program Repair. Yu Tang, Long Zhou, Ambrosio Blanco, Shujie Liu, Furu Wei, Ming Zhou, Muyun Yang. Findings of ACL 2021.
SemFace: Pre-training Encoder and Decoder with a Semantic Interface for Neural Machine Translation. Shuo Ren, Long Zhou, Shujie Liu, Furu Wei, Ming Zhou, Shuai Ma. ACL 2021.
Synchronous Bidirectional Inference for Neural Sequence Generation. Jiajun Zhang, Long Zhou, Yang Zhao, Chengqing Zong. Journal of Artificial Intelligence 2020.
Deep Neural Network Based Machine Translation System Combination. Long Zhou, Jiajun Zhang, Xiaomian Kang, Chengqing Zong. ACM Transaction on Asian and Low-Resource Language Information Processing, 2020..
Non-autoregressive Neural Machine Translation with Distortion Model. Long Zhou, Jiajun Zhang, Yang Zhao, Chengqing Zong. NLPCC 2020.
Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding. Yuchen Liu, Jiajun Zhang, Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, Chengqing Zong. AAAI 2020.
Improving Autoregressive NMT with Non-autoregressive Model. Long Zhou, Jiajun Zhang, Chengqing Zong. In AutoSimTrans of ACL 2020.
CASIA's System for IWSLT 2020 Open Domain Translation. Qian Wang, Yuchen Liu, Cong Ma, Yu Lu, Yining Wang, Long Zhou, Yang Zhao, Jiajun Zhang, Chengqing Zong. IWSLT 2020.
Synchronous Bidirectional Neural Machine Translation. Long Zhou, Jiajun Zhang, Chengqing Zong. TACL 2019.
Sequence Generation: From Both Sides to the Middle. Long Zhou, Jiajun Zhang, Chengqing Zong, Heng Yu. IJCAI 2019.
A Compact and Language-Sensitive Multilingual Translation Method. Yining Wang, Long Zhou, Jiajun Zhang, Feifei Zhai, Jingfang Xu, Chengqing Zong. ACL 2019.
Synchronously Generating Two Languages with Interactive Decoding. Yining Wang, Jiajun Zhang, Long Zhou, Yuchen Liu, Chengqing Zong. EMNLP 2019.
The Study on Ethnic-to-Chinese Scare-Resource Neural Machine Translation (民汉稀缺资源神经机器翻译技术研究). Yang Zhao, Long Zhou, Qian Wang, Cong Ma, Yuchen Liu, Yining Wang, Lu Xiang, Jiajun Zhang, Yu Zhou, Chengqing Zong. Journal of Jiangxi Normal University (Natural Science Edition), 2019.
A Comparable Study on Model Averaging, Ensembling and Reranking in NMT. Yuchen Liu, Long Zhou, Yining Wang, Yang Zhao, Jiajun Zhang, Chengqing Zong. NLPCC 2018.
Language-Independent Representor for Neural Machine Translation. Long Zhou, Yuchen Liu, Jiajun Zhang, Chengqing Zong, Guoping Huang. Arxiv 2018.
Look-ahead Attention for Generation in Neural Machine Translation. Long Zhou, Jiajun Zhang, Chengqing Zong. NLPCC 2017 (Best Paper Award).
Augmenting Neural Sentence Summarization through Extractive Summarization. Junnan Zhu, Long Zhou, Haoran Li, Jiajun Zhang, Yu Zhou and Chengqing Zong. NLPCC 2017.
CASIA Techincal Report for the CWMT2017 (第十三届机器翻译研讨会中科院自动化所技术报告). Long Zhou, Yining Wang, Yang Zhao, Jiajun Zhang, Chengqing Zong. CWMT 2017 (First Place & Third Place).
Word, Subword or Character? An Empirical Study of Granalarity in Chinese-English NMT. Yining Wang, Long Zhou, Jiajun Zhang, Chengqing Zong. CWMT 2017.
Nueral System Combination for Machine Translation. Long Zhou, Wenpeng Hu, Jiajun Zhang, Chengqing Zong. ACL 2017.
An End-to-End Chinese Discourse Parser with Adaptation to Explicit and Non-explicit Relation Recognition. Xiaomian Kang, Haoran Li, Long Zhou, Jiajun Zhang, Chengqing Zong. CONLL 2016.