admin 管理员组

文章数量: 1184232

GPT-1


传统 NLP 需要 大量人工标注数据 ,且词嵌入技术(Word2Vec)仅学习 词级表示,无法捕捉句子之间逻辑关系 。且对于各个任务(机器翻译、语言建模等)需独立设计模型且迁移复杂。
GPT-1的思想是先通过在无标签的数据上学习一个生成式的语言模型,然后再根据特定热任务进行微调。 (自回归语言建模)

无监督预训练

基于语言模型进行训练,给定一个无标签的序列 U = { u 1 , u 2 , … … , u n } \mathcal{U}=\{u_1,u_2,……,u_n\} U = { u 1 , u 2 , …… , u n } ,语言模型的目标是最大化这个似然值:
L 1 ( U ) = ∑ i log ⁡ P ( u i ∣ u i − k , … … , u i − 1 ; Θ ) ( 1 ) L_1(\mathcal{U})=\sum_i\log P(u_i|u_{i-k},……,u_{i-1};\Theta) \qquad \qquad (1) L 1 ( U ) = i lo g P ( u i u i k , …… , u i 1 ; Θ ) ( 1 )
其中 k 是滑动窗口大小,P 是条件概率, Θ \Theta Θ 是模型参数。

在 GPT-1 中,使用了 12 个 Transformer 块作为解码器,每个 Transformer 块是一个 掩码多头自注意力 ,通过全连接得到输出的概率分布。 (Decoder-only —— Next Token Prediction)
h 0 = U W e + W p ( 2 ) h l = transformer block ( h l − 1 ) ∀ i ∈ [ 1 , n ] ( 3 ) P ( u ) = s o f t m a x ( h n W e T ) ( 4 ) \begin{aligned} h_{0} & =UW_e+W_p &\qquad \qquad (2)\\ h_{l} & =\text{transformer block}(h_{l-1})\forall i\in[1,n] &\qquad \qquad (3)\\ P(u) & =\mathrm{softmax}(h_nW_e^T) &\qquad \qquad (4) \end{aligned} h 0 h l P ( u ) = U W e + W p = transformer block ( h l 1 ) i [ 1 , n ] = softmax ( h n W e T ) <

本文标签: 训练 无标签的 跨越媒体