Transformer 为处理顺序数据(特别是文本)提供了传统神经元的替代方案(尽管 Transformer 也已用于其他类型的数据,例如图像和音频,并取得了同样令人满意的结果)。
法学硕士的组成部分
Transformer 基于与循环神经网络和卷积神经网络相同的编码器-解码器架构。
这是通过嵌入技术的组合来完成的。嵌入是高维向量空间中的标记(例如句子、段落或文档)的表示,其中每个维度对应于语言的学习特征或属性。
嵌入过程发生在编码器中。由于法学硕士规模庞大,创建 女性数据 嵌入项目需要大量培训和大量资源。然而,Transformer 与以前的神经网络的区别在于,嵌入过程是高度可并行的,可以实现更高效的处理。这要归功于注意力机制。
循环神经网络和卷积神经网络仅根据先前的单词进行单词预测。从这个意义上说,它们可以被认为是单向的。相反,注意力机制允许 Transformer 双向预测单词,即基于之前和之后的单词。注意力层同时包含在编码器和解码器中,其目标是捕获输入句子中不同单词之间的上下文关系。
要详细了解编码器-解码器架构在Transformer中的工作原理,我们强烈建议您阅读我们的Transformer 使用简介和 Hug Face。
Transformer 架构解释
Transformer 架构解释
法学硕士培训
Transformer 训练包括两个步骤:预训练和调优。
之前的培训
在此阶段,变压器使用大量原始文本数据进行训练。互联网是数据的主要来源。
训练是使用无监督学习技术进行的,这是一种创新类型的训练,不需要人类操作来标记数据。
预训练的目标是学习语言的统计模式。实现更高变压器精度的最现代策略是使模型更大(这可以通过增加参数数量来实现)并增加训练数据的大小。因此,最先进的 LLM 拥有数十亿个参数(例如,PaLM 2 有 3400 亿个参数,GPT-4 估计有大约 1.8 万亿个参数),并且已经使用巨大的数据集进行了训练。