admin 管理员组

文章数量: 1086019


2024年3月28日发(作者:bom表单制作)

causal decoder-only的transformer模型结构

Causal decoder-only transformer是一种只包含解码器的transformer模

型,其结构如下:

1. 输入嵌入(Input Embedding):输入嵌入将输入序列中的每个词转

换成固定长度的向量表示,这些向量在模型训练中会被调整,使得最

终模型的输出尽可能接近标准答案。对于自然语言处理任务,通常会

使用预训练的词向量来初始化输入嵌入。

2. 解码器(Decoder):解码器由多个解码器层(Decoder Layer)组成,

每个解码器层由自注意力机制(Self-Attention)、多头注意力机制

(Multi-Head Attention)和前馈网络(Feed-Forward Network)组成。

解码器的输入为上一时刻的输出(或者是目标语言中已经生成的部分

句子),输出为下一时刻的预测。

3. 自注意力机制(Self-Attention):自注意力机制用于计算每个词在

当前句子中的重要性,以便模型更好地理解输入序列。它通过计算输

入嵌入中所有词的相似度得到一个权重矩阵,将输入嵌入加权求和得

到每个词的表示。

4. 多头注意力机制(Multi-Head Attention):多头注意力机制用于对

解码器的输入和编码器的输出进行注意力计算,以便解码器能够更好

地理解输入序列和上下文信息。它将输入进行多头划分,每个头都计

算一次注意力,最终将多头的输出拼接在一起。

5. 前馈网络(Feed-Forward Network):前馈网络是一种全连接的神经

网络,用于在解码器中进一步提取特征。

6. 层归一化(Layer Normalization):层归一化用于调整每个解码器层

的输出,以确保模型训练更加稳定。

7. 目标嵌入(Target Embedding):目标嵌入是用于将解码器的输出转

换成固定长度的向量表示,从而便于下一步的预测。

8. 最终预测(Final Prediction):最终预测是通过对目标嵌入进行全连

接操作得到的预测结果,通常是一个分类或回归问题。


本文标签: 输入 输出 解码器 向量 嵌入