admin 管理员组文章数量: 1184232
GPT-1
传统 NLP 需要
大量人工标注数据
,且词嵌入技术(Word2Vec)仅学习
词级表示,无法捕捉句子之间逻辑关系
。且对于各个任务(机器翻译、语言建模等)需独立设计模型且迁移复杂。
GPT-1的思想是先通过在无标签的数据上学习一个生成式的语言模型,然后再根据特定热任务进行微调。
(自回归语言建模)
无监督预训练
基于语言模型进行训练,给定一个无标签的序列
U = { u 1 , u 2 , … … , u n } \mathcal{U}=\{u_1,u_2,……,u_n\}
U
=
{
u
1
,
u
2
,
……
,
u
n
}
,语言模型的目标是最大化这个似然值:
L 1 ( U ) = ∑ i log P ( u i ∣ u i − k , … … , u i − 1 ; Θ ) ( 1 ) L_1(\mathcal{U})=\sum_i\log P(u_i|u_{i-k},……,u_{i-1};\Theta) \qquad \qquad (1)
L
1
(
U
)
=
i
∑
lo
g
P
(
u
i
∣
u
i
−
k
,
……
,
u
i
−
1
;
Θ
)
(
1
)
其中 k 是滑动窗口大小,P 是条件概率,
Θ \Theta
Θ
是模型参数。
在 GPT-1 中,使用了 12 个 Transformer 块作为解码器,每个 Transformer 块是一个
掩码多头自注意力
,通过全连接得到输出的概率分布。
(Decoder-only —— Next Token Prediction)
h 0 = U W e + W p ( 2 ) h l = transformer block ( h l − 1 ) ∀ i ∈ [ 1 , n ] ( 3 ) P ( u ) = s o f t m a x ( h n W e T ) ( 4 ) \begin{aligned} h_{0} & =UW_e+W_p &\qquad \qquad (2)\\ h_{l} & =\text{transformer block}(h_{l-1})\forall i\in[1,n] &\qquad \qquad (3)\\ P(u) & =\mathrm{softmax}(h_nW_e^T) &\qquad \qquad (4) \end{aligned}
h
0
h
l
P
(
u
)
=
U
W
e
+
W
p
=
transformer block
(
h
l
−
1
)
∀
i
∈
[
1
,
n
]
=
softmax
(
h
n
W
e
T
)
<
版权声明:本文标题:跨越媒体界限:Adobe Flash Player与多平台的内容传播探索 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1772016514a3551171.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论