大规模参数下的深度学习模型简单介绍

写在前面

当前，深度学习领域已经进入了一个大规模参数的时代，且在各个领域上都发挥了一定的作用，最具有代表性的就是自然语言处理(NLP)中的一个大而全的语言模型，大语言模型(Large Language Model, LLM)，不过个人倾向叫做大规模参数模型，是因为当前在其他领域也有与大语言模型类似的场景，而这种大规模的特点主要有：数据规模大和模型参数规模大这两个特点。这一篇主要想从一个总体框架的视角来进行描述。

大规模参数下的深度学习模型

如果对象不限定在深度学习下，大规模参数实际上在很多领域也会出现，特别是随着研究深入，系统不断复杂后，描述这个对象所需要的参数也就越来越多。比如在粒子仿真中，每一个粒子都有自己的参数，在很多粒子以后，整个仿真程序同一时间的参数就有很多，而在真实场景中，一个气态的仿真程序就会很多个参数，在这些参数下，去计算后续粒子变化的情况。而当对象限制在深度学习中，就是当前比较熟知大语言模型(LLM)等。

正如上述所述，当前的大规模参数的深度学习模型的两个主要特点是数据规模大和模型参数规模大。在这两特点下，大规模参数的深度学习模型并不只是在数值上的优化，即寻找参数使其尽可能逼近优化目标，同时还有特征学习(feature learning, FL)，比如Word2Vec，即不同的概念之间存在关系，使其能够做抽象意义上的计算，例如：

$\begin{equation} \text{中国} + \text{首都} = \text{北京}, \end{equation}$

亦或是

$\begin{equation} \text{中国} - \text{北京} = \text{美国} - \text{华盛顿}, \end{equation}$

模型训练在相关数据训练以后，对于数据中的概念，可能会存在一种符合直觉的相对关系。所以接下来，本文从这两个特点展开讨论，一方面介绍大规模参数下的深度学习模型的形式，一些固定的特点；另一方面尝试区分，广义的深度学习模型和大规模参数下深度学习模型的区别。

特点一：数据规模大

从大语言模型发展的历史过程来看，数据规模大的一个推动因素是，在大规模参数模型之前，存在很多“小”的深度学习模型，对于这些小的深度学习模型来说，其任务一般来说只是做好某个特定任务，但从形式上来看，这些模型所采用的数据都是类似的，比如都是文本数据，翻译文本，对话文本等，都是文本。而且对文本的处理形式都是：

首先需要对文本进行分词。
然后将词语转换成模型能够看懂的形式，比如one-hot编码，tokenizer。
接着进行嵌入向量上的计算。

前处理过程都是类似的，所以在这里提出一个统一的处理过程，使得后续的任务能够更快地采用这些流程而不需要重新造轮子或训练嵌入向量。

所以，数据规模大的一个动机是，大批量不同任务的文本模型的前处理过程是类似甚至是一致的，使其能够统一起来共同处理，所以这些文本数据也被统一地放在一起共同训练模型，这就是“预训练”。

自监督学习

在这里就存在一个问题，虽然将不同任务的共同操作分离出来，但是如何利用这些数据训练模型呢？首先，能够看到，在不同的文本模型，都需要共同的对象是“词的嵌入向量”，所以训练的目标就是提供一个更好的词向量；其次，不同的文本任务都可以看做是序列任务，即，给定前面的一些词汇输入，让模型能够根据这些词汇去输出后面的内容，比如翻译任务（PS：分类任务则不容易做到）。

所以在这里，就有一种比较便宜直接的做法就是，让模型通过之前的词语去预测下一个词语，这就是Next Token Prediction，下一个词元(token)预测。这个任务关注到词语生成都是按照顺序去生成，该任务从直观上来看，能够捕捉到词语与词语之间的关系，从而利用数据对词语的嵌入向量进行训练。

而这种任务也被叫做自监督学习，属于无监督学习和有监督学习的一个模糊地带。因为无监督学习是不需要人为去给定数据进行标注使其按照标注信息输出，但是该任务又有监督信号，只不过这个监督信号是来自数据本身的。

现在，我们将文本看做是一种序列数据，即一段文本是通过一词一词不断生成而得的，且后面的词语考虑了前面词语的信息。当然应当意识到一块的是，在一般的写作过程中，大多数情况都会有返工调整，所以这种建模，只能说从形式上和假设上有一定的道理，但是也存在一定的问题。那么，文本生成的形式具体就有:

$\begin{equation} x_{t+1} = f(x_{<t}), \end{equation}$

其中，表示第个位置的词的编码。模型希望通过之前词语的信息来预测下一个词。这个过程中，模型不仅学会了词语在向量空间的位置，也学会了词语与词语之间的关系。

特点二：参数规模大

当文本数据规模变大以后，为了处理这些较大规模的文本数据，模型参数也随之增大。这实际上也是一个很自然的情况，从优化理论视角来看，文本数据样本多，所需要拟合的内容也就多，自然模型的规模就要大。

正如上述讨论一般，从对于文本数据，可以从最简单的两块来理解，一个是词语本身的位置，一个是词语与词语之前的关系，前者可以理解为嵌入向量，后者则是当前耳熟能详的注意力机制。而注意力机制的还比较容易堆叠，所以使得模型参数能够很容易的从小参数扩展成大参数，且扩展以后，模型的性能有明显的上升。这可能在一定程度上说明了，模型通过看到了更多的文本，不管是语言理解还是常识知识都有更多的参数空间存储起来，进而使得模型能够更接近训练文本。

所以，文本数据之间，除了一般的语序关系之外，还包括知识，常识，共识等。目前来看，哪怕是从人类语言的视角，这两块似乎也无法做到完全分割，看似有语法，但都需要有具体的语言表述出来。所以，随着文本增多，其所代表的“函数”也就越复杂。所以，文本数据多，参数规模大，就导致实现相关的功能，训练相关的函数需要更多工程上的考虑。

从深度学习模型的生产到应用的流程来看，工程上所需要做的事情有很多，包括但不限于，数据工程，模型训练(优化器，持续训练)，模型结构设计，模型部署等。另一方面，当前的大语言模型深入与人类交互以后，还有很多应用上的设计与考虑，所以在预训练以后，为了能够与人类交互，还有指令微调，强化学习，这些步骤都是为了让模型能够更好地做下游任务所设计的。

参考文献

Han L, Mubarak A, Baimagambetov A, et al. A Survey of Generative Categories and Techniques in Multimodal Generative Models[J]. arXiv preprint arXiv:2506.10016, 2025.