Shoufa Chen

I am a final-year Ph.D. student in Computer Science, at The University of Hong Kong (HKU), advised by Prof. Ping Luo. Previously, I received my bachelor degree from Huazhong University of Science and Technology (HUST), supervised by Prof. Xinggang Wang.

My research focuses on computer vision and deep learning, particularly large-scale generative models for content creation. I also have prior experience in visual recognition.

Email / Google Scholar / Github

Papers

PixelFlow: Pixel-Space Generative Models with Flow
Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
arXiv Preprint, Apr. 2025
Paper / Code / Online Demo

Goku: Flow Based Video Generative Foundation Models
Shoufa Chen^*, Chongjian Ge^*, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Wuhui, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025
Paper / Code / Website

LlamaGen: Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan
arXiv Preprint, Jun 2024
Paper / Code

ControlAR: Controllable Image Generation with Autoregressive Models
Zongming Li, Tianheng Cheng, Shoufa Chen, Peize Sun, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
International Conference on Learning Representations (ICLR) , 2025
Paper / Code

GenTron: Diffusion Transformers for Image and Video Generation
Shoufa Chen^*, Mengmeng Xu^*, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024
Paper / Website

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing
Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He
International Conference on Learning Representations (ICLR) , 2024
Paper / Code / Website

DiffusionDet: Diffusion Model for Object Detection
Shoufa Chen, Peize Sun, Yibing Song, Ping Luo
International Conference on Computer Vision (ICCV), 2023 ( oral )
Best Paper Final List (17/8260, 0.2%)
Paper / Code

CycleMLP: A MLP-like Architecture for Dense Visual Predictions
Shoufa Chen, Enze Xie, Chongjian Ge, Runjian Chen, Ding Liang, Ping Luo
IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 2023 International Conference on Learning Representations (ICLR), 2022 ( oral )
Paper / Code

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
Shilong Zhang^*, Peize Sun^*, Shoufa Chen^*, Min Xiao, Wenqi Shao ,Wenwei Zhang, Kai Chen, Ping Luo
arxiv preprint, July, 2023 (^* denotes equal contribution)
Paper / Code

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition
Shoufa Chen^*, Chongjian Ge^*, Zhan Tong, Jiangliu Wang, Yibing Song, Jue Wang, Ping Luo
Neural Information Processing Systems (NeurIPS), 2022 (^* denotes equal contribution)
Paper / Project / Code

Honors and Awards

Hong Kong PhD Fellowship Scheme, 2021-2025
China National Scholarship, 2017, 2018

Academic Service