OneLLM,将所有模态和 LLM Align 的统一框架
Add time:2024-01-09
引言OneLLM使用通用编码器和统一的投影模块与LLM对齐多模式输入,它还利用modality tokens 实现了在模态之间的切换。上图展现了OneLLM的四个重要的组件:不同模态的tokenizer,通用编码器,统一的投影模块,大语言模型。多模态token的tokenizer:将输入的各种模态的信号转换为token序列。通用编码器:通用编码器是在LAION上训练的CLIP VIT Large。统一的投影模块(UPM):统一投影模块将各个模块投影到LLM ...123