LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

Zebin You¹, Shen Nie¹, Xiaolu Zhang², Jun Hu², Jun Zhou², Zhiwu Lu¹, Ji-Rong Wen¹, Chongxuan Li¹

¹Renmin University of China, ²Ant Group

TL;DR: We introduce LLaDA-V, a competitive diffusion-based vision-language model, outperforming other diffusion MLLMs.