这种类型的神经架构旨在发现文本标记之间的统计关系

Habib01 · Post by **Habib01** » Sun Jan 12, 2025 4:03 am

Transformer 为处理顺序数据（特别是文本）提供了传统神经元的替代方案（尽管 Transformer 也已用于其他类型的数据，例如图像和音频，并取得了同样令人满意的结果）。

法学硕士的组成部分
Transformer 基于与循环神经网络和卷积神经网络相同的编码器-解码器架构。
这是通过嵌入技术的组合来完成的。嵌入是高维向量空间中的标记（例如句子、段落或文档）的表示，其中每个维度对应于语言的学习特征或属性。

嵌入过程发生在编码器中。由于法学硕士规模庞大，创建女性数据嵌入项目需要大量培训和大量资源。然而，Transformer 与以前的神经网络的区别在于，嵌入过程是高度可并行的，可以实现更高效的处理。这要归功于注意力机制。

循环神经网络和卷积神经网络仅根据先前的单词进行单词预测。从这个意义上说，它们可以被认为是单向的。相反，注意力机制允许 Transformer 双向预测单词，即基于之前和之后的单词。注意力层同时包含在编码器和解码器中，其目标是捕获输入句子中不同单词之间的上下文关系。

要详细了解编码器-解码器架构在Transformer中的工作原理，我们强烈建议您阅读我们的Transformer 使用简介和 Hug Face。

Transformer 架构解释

Transformer 架构解释

法学硕士培训
Transformer 训练包括两个步骤：预训练和调优。

之前的培训
在此阶段，变压器使用大量原始文本数据进行训练。互联网是数据的主要来源。

训练是使用无监督学习技术进行的，这是一种创新类型的训练，不需要人类操作来标记数据。

预训练的目标是学习语言的统计模式。实现更高变压器精度的最现代策略是使模型更大（这可以通过增加参数数量来实现）并增加训练数据的大小。因此，最先进的 LLM 拥有数十亿个参数（例如，PaLM 2 有 3400 亿个参数，GPT-4 估计有大约 1.8 万亿个参数），并且已经使用巨大的数据集进行了训练。