admin 管理员组文章数量: 1086019
2024年3月13日发(作者:数据库可疑的解决方法)
第 42 卷第 3 期
2023年 5 月
Journal of South-Central Minzu University(Natural Science Edition)
中南民族大学学报(自然科学版)
Vol.42 No.3
May 2023
基于利用BERT不同层信息的微调策略的
对话状态追踪
叶正,傅灵,覃俊,刘晶
(中南民族大学 计算机科学学院 & 信息物理融合智能计算国家民委重点实验室, 武汉 430074)
摘要 在对话状态追踪任务中,BERT在训练下游任务时往往会选择模型的最后一层来做分类,尽管这样做的性
能也非常出色,但是这种做法往往忽略了BERT的其他层包含的语义信息.在BERT的微调策略方法上,探究了
BERT层数选择对任务结果的影响.为了缓解Dropout在训练和推理过程中产生的不一致性问题,引入了R-Drop正
则模块对网络输出预测进行正则约束.实验结果表明:用注意力机制对拼接后的BERT的12层输出进行特征权重
效果更好.
关键词 对话状态追踪;微调策略;层数选择
中图分类号 TP391.1 文献标志码 A 文章编号 1672-4321(2023)03-0327-07
doi:10.20056/.20230306
的微调,提高了对语义信息的特征表达能力,在数据集上Woz2.0上比只采用最后一层进行句子分类的BERT-Base
Dialogue state tracking based on fine-tuning strategy using BERT
information at different layer
(College of Computer Science & Information Physics Fusion Intelligent Computing Key Laboratory of the National Ethnic
Affairs Commission, South-Central Minzu University, Wuhan 430074)
Abstract In the dialogue state tracking task, BERT often selects the last layer of model for classification when training
downstream tasks. Although the performance of this method is also excellent, it often ignores the semantic information
YE Zheng,FU Ling,QIN Jun,LIU Jing
contained in other layers of BERT. The impact of BERT layer selection on task results in terms of BERT fine-tuning
strategies is explored . At the same time, Dropout will lead to inconsistency of training and reasoning processes. In order to
alleviate the inconsistency problem caused by Dropout during training and reasoning, the R-Drop regularization module to
perform regular constraints on network output prediction is introduced . The experimental results show that using the
attention mechanism to fine-tune the feature weight of the 12 layers of output of the spliced BERT improves the feature
the last layer for sentence classification.
expression ability of semantic information,and has a better effect on the dataset WoZ 2.0 than the BERT Base using only
Keywords dialogue state tracking; fine-tuning strategy; layer selection
近几年来,智能对话系统已经成为当下互联网
中的热门领域,如小米公司的小爱同学、苹果公司
的SIRI等智能语音助手,这些产品相比那些基于传
统规则的语音助手来说,它们不再局限于人工制定
的规则,而是通过基于深度学习的方式,更好地来
收稿日期 2022-09-04
理解用户的意思,同时还能对用户提出的问题做到
更加精确且快速的回答.对话系统按功能来划分的
话,分为闲聊型、任务型、知识问答型和推荐型.其
中任务型对话可以帮助用户完成所提出的任务
[1]
(例如查找产品,预订住宿和餐馆).在不同类型的聊
作者简介 叶正(1981-),男,教授,博士,研究方向:自然语言处理,E-mail:*****************.cn
基金项目 教育部产学合作协同育人项目(2);中南民族大学引进人才项目(YZZ20001)
Copyright©博看网. All Rights Reserved.
328
中南民族大学学报(自然科学版)
第 42 卷
天系统中,对话管理也不尽相同.对话管理是任务
型对话中至关重要的一部分,对话状态追踪
部分.
对话状态是从对话开始到当前对话的用户目
标的总结,通常表现为多组槽-值对的组合的形式,
有时也会包括对话所属的领域、用户意图等信息.对
话状态追踪是指结合对话历史、当前对话、前一轮对
话状态等信息,推断并更新当前对话状态的过程.
]
DST在对话管理中介于自然语言理解
[3
(Natural
[2]
1 相关工作
1.1 对话状态追踪
深度学习早期,由于在ASR和NLU这两个环节
(Dialogue State Tracking, DST)则是对话管理的一
经常出现误差,因此输入到DST中的内容是N-best
列表(对于ASR输入的是多条句子,对于SLU输入
的是多个槽值对.每条句子和每个槽值对都带一个
置信度).DST也就相应地输出各个状态的概率分
布,这样可以在多轮对话中对对话状态方便地进行
改动.尽管如此,DST任务还是会受到误差传播的影
响.之后HENDERSON等人直接舍弃了ASR、SLU模
块
[10]
,而向模型输入语句或者其他特征,并将循环
神经网络(RNN)运用在了DST领域.
DST任务需要对每个领域的不同槽位进行追
Language Understanding, NLU)和对话策略
[4]
(Dialog
Policy, DP)模块之间,可以将其简化成输入输出的
Speech Recognition, ASR)以及语音语言理解
DST的输出则是对话状态,用于选择下一步动作.但
形式,DST的输入往往是自动语音识别(Automatic
(Speech Language Understanding, SLU)的输出结果;
是ASR、SLU等组件的识别结果往往没有那么理想,
经常出现错误,这对DST本身的鲁棒性有着较高的
要求.所以DST的输出往往是各个对话状态的概率
分布,这样可以在多轮对话中进行修改,并且方便
系统向用户发起澄清语句.
随着深度学习的崛起,目前有许多深度神经网
络被提出并用做DST任务
[5-7]
踪,目的是为了在每轮对话过程中获得用户目标.
对此DST常用的建模方法主要有两种:分类式和判
别式,前者将DST视作一个多任务分类任务,也就
是说,DST任务需要为每个槽位都创建一个唯一的
分类器,这种做法带来的缺点也有很多.首先是泛
化能力不强.由于各个槽位都有着特定的分类器参
数,即便槽位在一定程度上很相似,但是也无法处
理另外一个槽位;其次在任务型对话数据集中,针
对某个领域只有少量数据时,分类器分到的数据集
也会变少,比如“餐厅-区域”和“电影院-区域”,火车
领域数据较多,而飞机领域数据则比较稀缺,如果
能通过训练“餐厅-区域”来处理“电影院-区域”,那
么就需要对模型的泛化能力有较高要求,另外分类
式还有可扩展性不高和无法并行处理槽位的问题.
除了分类式,还可以将DST任务建模成判别式.
判别式的工作流程则是计算槽位表征和槽值表征
可扩展性不高等问题,每次加入新的槽位,模型就
任务中共享了所有槽位的参数
[12]
,这样就可以充分
地利用训练数据来训练分类器.由于参数的共享机
制,使得模型能够处理相似的槽位,这样一来该模
型也就具有了一定的泛化能力.
1.2 基于BERT的对话状态追踪
之间的距离
[11]
.同样,判别式也存在泛化能力不足、
要重新训练.针对以上问题,RASTOGI等人在DST
,但是深度网络存在着
几个问题,比如说网络层次越深,需要的训练样本
数越多.若用于监督任务则需大量标注样本,小规
模样本则很容易造成过拟合.深层网络特征比较
多,会出现的多特征问题主要有多样本问题、规则
化问题、特征选择问题;同时多层神经网络还存在
参数优化经常得到收敛较差的局部解和梯度扩散
问题.为了解决这些问题,将预训练模型作用于DST
任务就是一个有效的方法,其中比较流行的预训练
模型就是ELMo
[8]
和BERT
[9]
.这样就可以在自己的
NLP数据集上使用该预训练模型,而无需从头开始
构建模型来解决类似的问题.
力,同时使用预训练模型还有助于缓解数据缺失的
问题.但由于BERT的12层输出层每层都包含着语
义信息,在做池化分类的时候往往没有利用其他层
的信息.所以本文将以端到端的对话状态跟踪任务
为研究对象,利用BERT不同层信息的微调策略上
对BERT进行微调.实验结果表明,BERT输出12层
拼接后再加上R-Drop正则约束在DST任务上取得
了较优的效果.
BERT拥有强大的语言表征能力和特征提取能
来进行特征的提取,采用了预训练加微调的训练模
式,通过遮蔽语言模型(Masked Language Model,
MLM)随机对输入序列中的某些位置进行遮蔽,然
后通过模型进行预测.MLM随机遮蔽模型输入中的
BERT使用了Transformer
[13]
模型的Encoder层
Copyright©博看网. All Rights Reserved.
第 3 期
叶正,等:基于利用BERT不同层信息的微调策略的对话状态追踪
329
一些token,目标在于仅基于遮蔽词的语境来预测其
原始词汇id.与从左到右的语言模型预训练不同,
MLM 目标允许表征融合左右两侧的语境,从而预训
的BERT网络模型.除此之外,在训练BERT的过程
中还加入了下句预测任务(Next Sentence Prediction,
NSP),即同时输入两句话到模型中,然后预测第二
句话是不是第一句话的下一句话,它可以和MLM共
同预训练文本对的表示.通过MLM任务和NSP任务
来学习深度单词级和句子级的特征,在不同的下游
任务上通过微调的方式训练和测试,以此得到最终
的模型和实验结果.
BERT采用大量的无标签数据、充分的训练,学
练一个深度双向 Transformer,有利于训练得到更深
要简单地在训练过程中丢弃一部分神经元,而成为
了被最广为使用的正则化技术.
但是也正是因为训练过程中每次都会随机丢
弃部分神经元,这样就会产生不同的子模型,结果
就是Dropout在一定程度上使得训练后的模型是一
种多个子模型的组合约束.基于Dropout的这种特殊
方式对网络带来的随机性,WU等人提出了R-Drop
[16]
来进一步对(子模型)网络的输出预测进行正则约
束.R-Drop在训练过程中通过刻意对子模型之间的
输出进行约束,来约束参数空间,让不同的输出都
能一致,从而降低了训练与测试的不一致性.
习了字符级、单词级、句子级甚至句间关系的特征,
以至于在不同的下游NLP任务中,只需要为BERT
在特定任务中添加一个额外的输出层,即可进行训
练.在BERT被提出后,判别式模型中“槽值”也被赋
予了语义.大量的以BERT为编码器的模型出现并
用于DST任务
[14-15]
,通常的做法是将槽位名称或槽
位描述直接追加在上下文的前面或后面.这种编码
方式的输出相当于某个上下文感知的槽位表征,然
后在下游任务中接入一个分类器或直接对候选值
进行判别.BERT在DST任务上的实现通常是取最后
一层进行pooled-output得到任务需要的特征,这样
就往往忽略了BERT其他层的信息,同时pooled-
这个输出并不一定是对输入语义内容的一个很好
的总结.
1.3 R-Drop
output是由线性层和Tanh激活函数进一步处理的,
2 模型
本文所使用的模型编码器为BERT-Base,通过
注意力机制对拼接后的BERT的12层输出进行特征
权重的微调。任务流程是将系统会话、用户会话以
及槽值对作为输入,传到微调后的BERT编码器中
得到一个新的语义表示向量c,最后将该向量放到全
连接层中输出得到相应的分数,以此来表明预测的
结果是否正确.该方法类似于句子对的分类任务,
以下对模型结构进行具体介绍.
2.1 输入层
输入层的结构如图1所示,输入部分由前一个
回合的系统对话(System Utterance)、当前回合的用
户对话(User Utterance)以及候选槽值对(Candidate
Slot-Value Pair)三个输入段组成.通过BERT的
tokenizer模块进行分词得到每个输入段的token序
列,在输入序列的最前端添加特殊标记[CLS]作为
文本的语义表示,同时这三个输入段均用特殊标记
[SEP]进行分隔,进而得到一个单一的标记序列用
以传给模型层进行训练.
过拟合是很多深度学习网络的通病,在训练一
些大规模模型时往往会出现,导致泛化能力较差,
为了解决这些问题,出现了很多正则化技术,例如:
L2正则化,Dropout等,其中,Dropout技术由于只需
图1 输入层
2.2 模型结构
Fig.1 Input layer
模型层将第一个特殊字符[CLS]经过不同层
模型结构分为3个模块,为了更直观地观察模
型层结构,下文将输入层进行简化展示.模型结构
如图2所示,BERT由12层Transformer模块组成,
Transformer模块得到的输出向量记为
C
(2,...,
i
i=1,
12),不同的输出向量采用点积注意力来训练权重
得到最终的输出向量c.
Copyright©博看网. All Rights Reserved.
330
中南民族大学学报(自然科学版)
第 42 卷
图2 模型结构
Fig.2 Model structure
2.2.1 点积注意力训练权重
选槽值对的概率分数.随后选择预测概率大于0.5
的作为该回合的最终预测值;同时使用新预测的槽
值对来更新前一回合状态中的对应值以获得当前
回合的对话状态.
2.2.3 损失函数
损失函数的定义参考R-Drop,目标包含两个部
注意力机制实质上就是一个寻址过程,通过给
定一个任务相关的查询Query向量Q,通过计算Key
的注意力分布并附加在Value上,从而计算出
意力概率分布作用过程,步骤如下:
入信息.
Attention Value,这当中涉及到注意力打分机制和注
X=[x
0
,...,x
N-1
]
表示N个输
首先是信息输入:
分,一个是两次输出之间的KL散度,其作用主要是
使两个不同的子模型预测的结果尽量保持相同,达
到模型优化的目的.通过最小化两个分布之间的双
向KL散度,减小Dropout训练和测试时带来的不同.
公式如下:
L
i
KL
=
1
w
(D
KL
(P
w
1
(y
i
|x
i
)||P
2
(y
i
|x
i
))+
2
w
D
KL
(P
w
2
(y
i
|x
i
)||P
1
(y
i
|x
i
)))
.
其次是注意力分布计算,令
Key=Value=X
,
则可以给出注意力分布:
α
i
=softmax(s(k
i
,q))=softmax(s(x
i
,q))
.(1)
根据打分机制计算注意力得分系数,其中点积
s(x
i
,q)=x
T
i
q
.
注意力的公式为:
(2)
最后是对信息加权:注意力分布
α
i
可以解释为
在上下文查询
q
时,第i个信息受关注的程度,采用
一种“软性”的信息选择机制对输入信息X进行编
码为:
attention(V)=
∑
α
i
V
i
=aV
.
N
i=1
另一个是模型自有的损失函数交叉熵,公式
如下:
w
L
i
NLL
=-log P
w
1
(y
i
|x
i
)-log P
2
(y
i
|x
i
)
.
(5)
(6)
(7)
最终的总损失函数则定义为两者的加权和:
其中
α
是控制
L
i
KL
权重的系数.
L
i
=L
i
NLL
+α∙L
i
KL
,
2.2.2 输出层
(3)
输出向量c传入到输出层.输出层则直接使用
一层全连接层,用于得到最终的评分.分数的相关
概率为:
y= σ(Wc+b)∈IR
,
3 实验与分析
3.1 数据集与评价指标
本文实验主要在数据集WoZ2.0
[17]
上进行.
(4)
其中,变换矩阵W和偏置项b为模型参数,σ为
Sigmoid函数,它的作用是将分数压缩至0到1之间.
在每个回合中,BERT模型被用来估计每个候
WoZ2.0是面向餐馆预定场景的单领域数据集,语料
库由WoZ1.0版本的600轮单域对话扩充到1200个
单域对话,由用户对话和系统对话组成,旨在帮助
Copyright©博看网. All Rights Reserved.
第 3 期
叶正,等:基于利用BERT不同层信息的微调策略的对话状态追踪
331
用户找到合适的餐厅.其中本体包括3个槽位:食
物、价格和区域.该数据集可以有效检验模型在单
领域上的效果.
为了更好地评估BERT输出层拼接对提高DST
任务的有效性,与之前的工作类似,实验指标选择
(Joint Goal Accuracy),即比较每一轮的预测输出值
与真实状态值,只有当且仅当状态中的每个槽值均
预测正确时,才认为本轮预测正确.
3.2 实验设置
本次实验是在单块Quadro RTX 6000显卡上进
DST任务中十分常用且先进的联合目标精度
[18]
表2 引入R-Drop正则化后BERT层数选择在WoZ2.0测试集上的
联合目标精度
Tab.2 After introducing R-Drop regularization, the Joint Goal
Accuracy of BERT layer selection on WoZ2.0 test set
Models
90.6
91.1
91.0
90.5
91.7
90.0
90.4
Joint Goal Accuracy /%
BERT_RDROP(后4层 + 拼接)
BERT_RDROP(后4层 + 平均)
BERT_RDROP(全部12层 + 拼接)
BERT_RDROP(全部12层 + 平均)
BERT_RDROP(全部12层 + 最大)
BERT_RDROP(后4层 + 最大)
BERT_RDROP(Base)
行的,使用网格搜索来设置BatchSize大小和学习
率,其中BatchSize大小的范围为[16, 32, 64],学习
率设置的范围为[0.00001, 0.00002, 0.0002],选用
的预训练模型是BERT-Base版本,该模型由12层
Transformer组成,有768个单元的隐藏层和12个自
和0.9%.通过表2的实验结果可发现在加入R-Drop
正则模块后,在BERT输出后4层取平均、BERT输
出12层拼接的联合目标精度值有明显的提高,其结
果比没有引入R-Drop的分别高出1.6%和1.4%,其
中BERT输出12层拼接相比于基线模型也高出了
1.0%,同时也是层数选择中效果最好的一个.这说
是可行的.
同样地,为了验证基于利用BERT不同层信息
的微调策略方法的有效性,本文还选取了目前DST
任务中的一些效果较好的网络模型,比如GLAD
[21]
、
[22]
StateNet
以及Neural Belief Tracker
[23]
,作为对比,将这
我注意头.最后根据最优的结果设置训练中
BatchSize的大小(设置为16),epoch为25,优化器使
proportion)设置为0.1.
3.3 实验结果与分析
]
用Adam,学习率为0.00002,预热学习率
[19
(warmup_
明引入R-Drop正则模块后对部分实验结果的提高
为了验证利用BERT不同层信息的微调策略方
法的有效性,本文以BERT-Base的结果为基线模型,
对BERT的层数选择进行变动,根据SUN等人的实
验
[20]
,特别地选取了BERT输出层的后4层和全部
12层,并对其采取拼接、平均或最大三种方法,实验
结果如表1所示.
表1 BERT微调策略下的层数选择在WoZ2.0测试集上的
联合目标精度
Tab.1 Joint Goal Accuracy of layer number selection under BERT
fine-tuning strategy on WoZ2.0 test set
ModelsJoint Goal Accuracy /%
90.7
91.3
89.4
91.6
90.3
90.5
90.1
些模型与表2中结果最好的BERT全部12层拼接加
上R-Drop正则模块进行对比实验,结果如表3所示.
表3 不同模型在WoZ2.0测试集上的联合目标精度
Tab.3 Joint Goal Accuracy of different models on WoZ2.0 test set
Models
GLAD
Joint Goal Accuracy /%
88.1
88.9
84.2
91.7
BERT(后4层 + 拼接)
BERT(后4层 + 平均)
BERT(全部12层 + 拼接)
BERT(全部12层 + 平均)
BERT(全部12层 + 最大)
BERT(后4层 + 最大)
BERT-Base
BERT_RDROP(全部12层 + 拼接)
Neural Belief Tracker
StateNet
从表3中可以看出,在BERT经过输出12层拼
接之后,再利用R-Drop正则约束来增强DST任务中
预测结果的准确性,该方法在DST任务中非常关键
的联合目标精度指标上比其他几个网络模型的实
验结果要高出不少,进一步证明了对BERT输出层
的层数选择上的改动是有效的,可以获得更多的语
义信息.这说明利用BERT不同层信息的微调策略
这种方法在DST任务中具有一定优势.
Drop正则模块对其进行优化,其中BERT_RDROP
引入后的实验结果如表2所示.
从表1的结果不难看出,在没有加入R-Drop正
则模块时,对BERT输出后4层进行拼接和最大的结
同时为了提高模型的稳定性,实验中还引入R-
表示BERT引入R-DROP正则模块后的模型结构,
4 总结
为了完成面向任务型对话系统中的状态跟踪果相对于BERT-Base有小幅度提高,分别高出0.6%
Copyright©博看网. All Rights Reserved.
332
中南民族大学学报(自然科学版)
第 42 卷
任务,本文选用了目前NLP中效果非常出色的预训
练模型BERT,在只有一个附加输出层的情况下对
BERT模型进行微调,进而降低了对NLP任务精心
设计特定体系结构的需求,同时由于BERT预测屏
[P]//dings of the 56th Annual Meeting of the
Association for Computational Linguistics. Melbourne:
[8] PETERS M, NEUMANN M, IYYER M, et al. Deep
contextualized word representations[C]//NAACL-HLT.
Proceedings of the 2018 Conference of the North
American Chapter of the Association for Computational
ACL, 2018:2227-2237.
ACL, 2018:108-113.
蔽子词进行训练,这种特殊方式在语句级的语义分
析中取得了极好的效果;另外,在BERT层数的选择
上进行改动,利用BERT不同层的信息来进行微调,
不再局限于BERT输出最后一层进行池化分类,而
是更加灵活地选择输出层进行模型训练.在WoZ2.0
数据集上的实验结果显示:当BERT输出层的全部
息,同时由于引入了R-Drop正则模块,提高了模型
的稳定性,其结果在DST任务中的最关键指标——
联合目标精度上相较于BERT-Base有了提升,表明
基于利用BERT不同层信息的微调策略在完成DST
任务上的有效性.
参考文献
Linguistics: Human Language Technologies. New Orleans:
[9] DEVLIN J , CHANG M W , LEE K , et al. BERT:Pre-
training of deep bidirectional transformers for language
understanding[C]//NAACL-HLT. Proceedings of the
2019 Conference of the North American Chapter of
Language polis:ACL, 2019: 4171-
4186.
the Association for Computational Linguistic: Human
12层进行拼接时,可以更加有效地融合每层的信
[10] HENDERSON M, THOMSON B, YOUNG S. Deep
neural network approach for the dialog state tracking
2013 Conference. Metz: ACL, 2013: 467-471.
challenge[C]//SIGDIALP. Proceedings of the SIGDIAL
[11] MRKŠIĆ N, SÉAGHDHA D O, WEN T H, et al.
Neural belief tracker: Data-driven dialogue state
Meeting of the Association for Computational Linguistics.
Vancouver: ACL, 2017: 1777-1788.
tracking[C]//ACL. Proceedings of the 55th Annual
[1] WEN T H, VANDYKE D, MRKŠIĆ N, et al. A network-
[C]//dings of the 15th Conference of the
European Chapter of the Association for Computational
[2] ZHONG V, XIONG C, SOCHER R. Global-locally self-
attentive dialogue state tracker[J].arXiv Preprint, arXiv:
[3] GUPTA S, SHAH R, MOHIT M, et al. Semantic parsing
[C]//EMNLP. Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing.
[4] TAKANOBU R, ZHU H, HUANG M. Guided dialog
policy learning:Reward estimation for multi-domain task-
oriented dialog[C]//EMNLP. Proceedings of the 2019
Conference on Empirical Methods in Natural Language
Processing and the 9th International Joint Conference on
100-110.
Brussels:ACL, 2018:2787-2792.
for task oriented dialog using hierarchical representations
1805.09655, 2018.
Linguistics. Valencia:ACL, 2017: 438-449.
based end-to-end trainable task-oriented dialogue system
[12] RASTOGI A, HAKKANI-TÜR D, HECK L. Scalable
multi-domain dialogue state tracking[C]//IEEE. 2017
IEEE Automatic Speech Recognition and Understanding
a:IEEE, 2017: 561-568.
[13] VASWANI A, SHAZEER N, PARMAR N, et al.
Attention is all you need[C]//NIPS. Advances in Neural
Information Processing Systems 30: Annual Conference
NIPS, 2017: 5998-6008.
on Neural Information Processing Beach:
[14] LAI T M, TRAN Q H, BUI T, et al. A simple but
effective bert model for dialog state tracking on resource-
limited systems[C]//IEEE.2020 IEEE International
Barcelona: IEEE, 2020: 8034-8038.
Natural Language Processing. Hong Kong:ACL, 2019:
[5] REN L, XIE K, LU C, et al. Towards universal dialogue
state tracking[C]//EMNLP. Proceedings of the 2018
Conference on Empirical Methods in Natural Language
Processing. Brussels:ACL, 2018:2780-2786.
Conference on Acoustics, Speech and Signal Processing.
[15] CHAO G L, LANE I. BERT-DST:Scalable end-to-end
dialogue state tracking with bidirectional encoder
representations from transformer[C]//ISCA. 20th
Annual Conference of the International Speech
Communication Association. Graz: ISCA, 2019: 1468-
1472.
[6] NOURI E, HOSSEINI-ASL E. Toward scalable neural
dialogue state tracking model[J]. arXiv e-prints, arXiv:
[7] MRKI N , VULI I. Fully statistical neural belief tracking
1812.00899, 2018.
[16] WU L, LI J, WANG Y, et al. R-drop: regularized
dropout for neural networks[C]//NIPS. Advances in
Neural Information Processing Systems 34: Annual
Copyright©博看网. All Rights Reserved.
第 3 期
叶正,等:基于利用BERT不同层信息的微调策略的对话状态追踪
333
Conference on Neural Information Processing Systems.
[17] WEN T H, VANDYKE D, MRKSIC N, et al. A
network-based end-to-end trainable task-oriented dialogue
system[C]//EACL. Proceedings of the 15th Conference
of the European Chapter of the Association for
438-449.
Online:NIPS, 2021: 10890-10905.
text classification?[C] // National Conference
Springer, 2019: 194-206.
on Chinese Computational Linguistics. Kunming:
[21] ZHONG V , XIONG C , SOCHER R. Global-locally
self-attentive encoder for dialogue state tracking[C]//
ACL, 2018:1458-1467.
ACL. Proceedings of the 56th Annual Meeting of the
Computational Linguistics. Valencia:ACL, 2017:
[18] HENDERSON M, THOMSON B, WILLIAMS J. The
Annual Meeting of the Special Interest Group on
263-272.
second dialog state tracking challenge[C]//SIGDIAL.15th
Discourse and Dialogue. Philadelphia:ACL, 2014:
[19] HE K, ZHANG X, REN S, et al. Deep residual
learning for image recognition[C]//IEEE. Proceedings of
the IEEE Conference on Computer Vision and Pattern
Vegas: IEEE, 2016: 770-778.
Association for Computational Linguistics. Melbourne:
[22] REN L , XIE K , LU C , et al. Towards universal
dialogue state tracking[C]//dings of the
2018 Conference on Empirical Methods in Natural
Language Processing. Brussels: ACL, 2018:2780-
2786.
belief tracker: Data-driven dialogue state tracking[C]//
ACL, 2017:1777-1788.
[23] MRKI N, DIARMUID S, WEN T H, et al. Neural
dings of the 55th Annual Meeting of the
[20] SUN C, QIU X,XU Y, et al. How to fine-tune BERT for
Association for Computational ver:
(责编 曹东,校对 雷建云)
Copyright©博看网. All Rights Reserved.
版权声明:本文标题:基于利用BERT_不同层信息的微调策略的对话状态追踪 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710340529a568505.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论