A Survey on Multimodal Large Language Models

Category： Paper

多模态大语言模型（Multimodal Large Language Model，MLLM）是一种结合多种数据模态（如文本、图像、音频、视频等）的大型人工智能模型。它在传统大语言模型的基础上，扩展了对非文本模态的理解和生成能力，能够更全面地感知和交互复杂的世界信息，本文是中科大和腾讯合作发表的MLLM领域的综述论文。

1. MLLM架构

MLLM的架构如下所示，主要由Encoder，connector和LLM三部分构成；

Encoder输入图像、音频或视频并输出特征，它是接收和预处理光学/声学信号的人类眼睛/耳朵；
Connector：模态接口用于对不同模态进行对齐，处理Encoder输出的特征以便于LLM更好地理解；
LLM: 理解并推理经过处理的信号的人类大脑。

除此之外，一些MLLM 还包括一个生成器来输出文本以外的其他模态；

Paper Image

2. 编码器（Encoder）

编码器将原始信息（例如图像或音频）压缩为更紧凑的表示形式；与从头开始训练相比，一种常见的方法是使用已对其他模态进行预训练的编码器；因此，更容易使用这种预先对齐的编码器来通过对齐预训练与LLM 对齐；在选择编码器时，通常会考虑分辨率等因素；扩大输入分辨率的方法可以分为直接扩展方法和切片分割方法。

直接扩展方式将高分辨率图像输入到编码器中，这通常需要进一步调整编码器或者用具有更高分辨率的预先训练好的编码器替换它。同样地，CogAgent使用双编码机制，其中两个编码器分别处理高分辨率和低分辨率图像。通过交叉注意力注入高分辨率特征到低分辨率分支中。
切片分割方法将高分辨率图像切成小块，并重新利用低分辨率编码器。Monkey和SPHINX将大图像分成较小的块，并与下采样后的高分辨率图像一起发送给图像编码器，其中子图像和低分辨率图像分别捕获局部和全局特征.

Paper Image

3. 预训练LLM

与其从头开始训练大型语言模型，不如使用预先训练好的模型更有效率和实用。通过在网页语料库上进行大规模预训练，大型语言模型已经嵌入了丰富的世界知识，并且表现出强大的泛化能力和推理能力。值得注意的是，扩大LLM参数规模也会带来额外的好处，类似于增加输入分辨率的情况。Liu 等人发现将大型语言模型从 7B 扩大到 13B 可以在各种基准上全面改进性能。此外，在使用一个 34B 的大型语言模型时，当仅使用英语多模态数据进行训练时，该模型显示zero-shot中文能力。Lu 等人在将大型语言模型从 13B 扩展到 35B 和 65B/70B 时也观察到了类似的现象，其中较大的模型尺寸带来了针对多任务大型语言模型专门设计的基准上的持续收益。还有一些工作使用较小的大型语言模型来促进移动设备上的部署。例如，MobileVLM 系列 , 使用缩小版本的 LLaMA（称为 MobileLLaMA 1.4B/2.7B），从而可以在移动处理器上高效推理。最近，对于混合专家（MoE）架构的探索引起了越来越多的关注。稀疏架构通过选择性激活参数而无需增加计算成本即可扩展总参数大小。

4. Modality接口 (Connector)

由于LLM只能感知文本，因此需要填补自然语言与其它模态之间的鸿沟。然而，以端到端的方式训练大型多模态模型的成本很高。一种更实用的方法是引入一个可学习的连接器来连接预训练视觉编码器和LLM。另一种方法是在专家模型的帮助下将图像翻译成语言，并然后将其发送给LLM。

可学习的连接器 它负责填补不同模态之间的差距。具体来说，该模块将信息投影到LLM可以高效理解的空间中。根据多模态信息融合的方式，此类接口有广义上的两种实现方式，即token级和特征级融合。

对于token级融合，特征输出从编码器转换为tokens，并与文本tokens进行拼接后输入到LLMs。一种常见的可行的解决方案是利用一组可学习的查询tokens以基于查询的方式提取信息。此类Q-Former风格的方法将视觉tokens压缩成更少的表示向量。相反，一些方法简单地使用MLP接口来填补模态差距。例如，LLaVA系列采用一个/两个线性MLP来投影视觉tokens并使特征维度与词嵌入对齐。在相关方面，MM1对连接器的设计选择进行了消融，并发现对于令牌级融合而言，模态适配器的类型远不如视觉令牌的数量和输入分辨率重要。然而，Zeng 等人比较了令牌和特征级融合性能，并实证地揭示了令牌级融合变体在VQA基准上表现更好。关于性能差距，作者建议跨注意力模型可能需要更复杂的超参数搜索过程来实现可比性能。
特征级融合插入了额外的模块以实现文本特征和视觉特征之间的深度交互与融合。例如，Flamingo在冻结的LLM中的Transformer层之间插入跨注意力层，从而通过外部视觉线索增强语言特征。同样地，CogVLM将一个视觉专家模块插在每个Transformer层中，以便于同时进行视觉和语言特征之间的双交互与融合。为了获得更好的性能，引入模块的QKV权重矩阵从预训练的LLM中初始化。类似地，LLaMA-Adapter为Transformer层引入可学习提示。这些提示视觉知识首先被嵌入，然后与文本特征作为前缀进行连接。

在参数量方面，可学习的接口通常比编码器和LLM小得多。以Qwen-VL为例，Q-Former 的参数量约为 0.08B ，占整个参数量的比例不到 1%，而编码器和LLM分别约占约 19.8%(1.9B) 和 80.2%(7.7B);

专家模型 使用专家模型（例如图像描述模型）也是填补模态差距的一种可行方法。它的基本思想是将多模态输入转换为语言而无需训练，在此过程中LLMs可以通过转换后的语言理解多模态性。例如，VideoChat-Text使用预训练视觉模型提取动作等视觉信息，并通过语音识别模型丰富描述。尽管使用专家模型非常直接，但它可能不如采用可学习的接口那么灵活。将外国模态转换成文本会导致信息损失。例如，将视频转换成文字描述会破坏空间和时间关系。

5. 训练

完整的MLLM需要进行三个阶段的训练，即预训练、指令微调和对齐微调。每个阶段的训练都需要不同的数据类型，并实现不同的目标。作为训练的第一阶段，预训练主要目的是对不同模态进行对齐，并学习多模态世界知识。预训练阶段通常包含大规模的文本配对数据，例如注释数据。典型地，这些注释对描述图像/音频/视频使用自然语言句子。

训练方案与数据质量密切相关。对于短而嘈杂的注释数据，可以采用较低分辨率（例如224）以加快训练过程；而对于较长且较干净的数据，则应利用较高分辨率（例如448或更高），以减少幻觉现象的发生。此外，ShareGPT4V发现，在预训练阶段使用高质量的注释数据时，解锁视觉编码器有助于更好地对齐。

5.1 数据

预训练数据主要服务于两个目的，对齐不同模态和提供世界知识。根据粒度可以将预训练语料库分为粗粒度和细粒度数据：

粗粒度的注释数据具有以下一些典型特征：（1）由于样本通常来自互联网，因此数据量较大。（2）由于是网页抓取的数据，所以这些注释通常是短小且噪声较大的。可以通过自动工具对这些数据进行清理和过滤，例如使用CLIP模型来筛选相似性低于预定义阈值的图像-文本对。
与粗粒度数据相比，细粒度数据通常包含更长且更准确的图像描述，从而实现图像和文本模态之间的更精细对齐。然而，由于这种方法通常需要调用商用MLLM，成本较高，并且数据量相对较小。值得注意的是，ShareGPT4V 在训练一个使用 GPT-4V 生成的摘要器后达到平衡。使用预训练的摘要器将数据量扩大到10万，然后将其扩展到120万;

5.2 指令微调

指令是指任务的描述。直观地，指令微调旨在教模型更好地理解用户提供的指令并完成所需的任务。通过这种方式进行微调，LLMs可以遵循新的指令来泛化到未见过的任务，从而提升零样本性能。这一简单而有效的方法激发了后续NLP工作的成功，例如ChatGPT 、InstructGPT、FLAN和OPT-IML等。

Paper Image

上图显示了指令微调与相关典型学习范式的比较。监督的精细调整通常需要大量的任务特定数据来训练一个任务特定模型，而提示方法则减少了对大量数据的需求，并可以通过提示工程实现专门的任务。在这种情况下，尽管少量样本性能有所提高，但zero-shot性能仍然相当一般。不同的是，指令微调是学习如何泛化到未见过的任务而不是像两个对应者一样拟合特定的任务。此外，指令微调高度相关于多任务提示。

5.3 对齐调整

对齐调整在需要与特定人类偏好进行对齐的模型中更为常见，例如响应较少的幻觉。目前，强化学习与人类反馈 (RLHF) 和直接偏好优化 (DPO) 是两种主要的对齐调整技术

RLHF 该技术旨在利用强化学习算法将LLMs与人类偏好对齐，并在训练循环中使用人类注释作为监督。如InstructGPT所示，RLHF包括三个关键步骤：

1）监督微调。此步骤旨在对预训练模型进行微调，以呈现初步的期望输出行为。RLHF 设置中的微调模型称为策略模型。请注意，在某些情况下，这一步可能会被跳过，因为监督策略模型πSFT可以从指令微调模型初始化。

2）奖励建模。在本步骤中，使用偏好对训练奖励模型。给定多模态提示（例如图像和文本）x 和响应对 (y_w, y_l)，奖励模型rθ学习给出更高的奖励给首选的响应y_w，并且相反地为y_l。

3）强化学习。在本步骤中，采用PPO算法优化RL策略模型πRLo。通常会添加一个每字KL惩罚项到训练目标以避免偏离原始政策太远.

DPO 通过利用简单的二元分类损失学习来自人类偏好的标签。与PPO 基于的RLHF 算法相比，DPO 免除了学习显式奖励模型，从而简化整个管道为两个步骤：即收集人类偏好数据和偏好学习。RLHF-V 通过纠正模型中的幻觉来收集精细粒度（段落级别）的偏好数据对。

未完～

上篇FAST 2025 数据一览

下篇Fire-Flyer File System:3FS