基于利用BERT_不同层信息的微调策略的对话状态追踪-Linux大棚

admin 管理员组

文章数量: 1086019

2024年3月13日发(作者：数据库可疑的解决方法)

第 42 卷第 3 期

2023年 5 月

Journal of South-Central Minzu University（Natural Science Edition）

中南民族大学学报（自然科学版）

Vol.42 No.3

May 2023

基于利用BERT不同层信息的微调策略的

对话状态追踪

叶正，傅灵，覃俊，刘晶

（中南民族大学计算机科学学院 & 信息物理融合智能计算国家民委重点实验室，武汉 430074）

摘要在对话状态追踪任务中，BERT在训练下游任务时往往会选择模型的最后一层来做分类，尽管这样做的性

能也非常出色，但是这种做法往往忽略了BERT的其他层包含的语义信息.在BERT的微调策略方法上，探究了

BERT层数选择对任务结果的影响.为了缓解Dropout在训练和推理过程中产生的不一致性问题，引入了R-Drop正

则模块对网络输出预测进行正则约束.实验结果表明：用注意力机制对拼接后的BERT的12层输出进行特征权重

效果更好.

关键词对话状态追踪；微调策略；层数选择

中图分类号 TP391.1 文献标志码 A 文章编号 1672-4321（2023）03-0327-07

doi：10.20056/.20230306

的微调，提高了对语义信息的特征表达能力，在数据集上Woz2.0上比只采用最后一层进行句子分类的BERT-Base

Dialogue state tracking based on fine-tuning strategy using BERT

information at different layer

（College of Computer Science & Information Physics Fusion Intelligent Computing Key Laboratory of the National Ethnic

Affairs Commission， South-Central Minzu University， Wuhan 430074）

Abstract In the dialogue state tracking task， BERT often selects the last layer of model for classification when training

downstream tasks. Although the performance of this method is also excellent， it often ignores the semantic information

YE Zheng，FU Ling，QIN Jun，LIU Jing

contained in other layers of BERT. The impact of BERT layer selection on task results in terms of BERT fine-tuning

strategies is explored . At the same time， Dropout will lead to inconsistency of training and reasoning processes. In order to

alleviate the inconsistency problem caused by Dropout during training and reasoning， the R-Drop regularization module to

perform regular constraints on network output prediction is introduced . The experimental results show that using the

attention mechanism to fine-tune the feature weight of the 12 layers of output of the spliced BERT improves the feature

the last layer for sentence classification.

expression ability of semantic information，and has a better effect on the dataset WoZ 2.0 than the BERT Base using only

Keywords dialogue state tracking； fine-tuning strategy； layer selection

近几年来，智能对话系统已经成为当下互联网

中的热门领域，如小米公司的小爱同学、苹果公司

的SIRI等智能语音助手，这些产品相比那些基于传

统规则的语音助手来说，它们不再局限于人工制定

的规则，而是通过基于深度学习的方式，更好地来

收稿日期 2022-09-04

理解用户的意思，同时还能对用户提出的问题做到

更加精确且快速的回答.对话系统按功能来划分的

话，分为闲聊型、任务型、知识问答型和推荐型.其

中任务型对话可以帮助用户完成所提出的任务

［1］

（例如查找产品，预订住宿和餐馆）.在不同类型的聊

作者简介叶正（1981-），男，教授，博士，研究方向：自然语言处理，E-mail：*****************.cn

基金项目教育部产学合作协同育人项目（2）；中南民族大学引进人才项目（YZZ20001）

328

中南民族大学学报（自然科学版）

第 42 卷

天系统中，对话管理也不尽相同.对话管理是任务

型对话中至关重要的一部分，对话状态追踪

部分.

对话状态是从对话开始到当前对话的用户目

标的总结，通常表现为多组槽-值对的组合的形式，

有时也会包括对话所属的领域、用户意图等信息.对

话状态追踪是指结合对话历史、当前对话、前一轮对

话状态等信息，推断并更新当前对话状态的过程.

］

DST在对话管理中介于自然语言理解

［3

（Natural

［2］

1　相关工作

1.1　对话状态追踪

深度学习早期，由于在ASR和NLU这两个环节

（Dialogue State Tracking， DST）则是对话管理的一

经常出现误差，因此输入到DST中的内容是N-best

列表（对于ASR输入的是多条句子，对于SLU输入

的是多个槽值对.每条句子和每个槽值对都带一个

置信度）.DST也就相应地输出各个状态的概率分

布，这样可以在多轮对话中对对话状态方便地进行

改动.尽管如此，DST任务还是会受到误差传播的影

响.之后HENDERSON等人直接舍弃了ASR、SLU模

块

［10］

，而向模型输入语句或者其他特征，并将循环

神经网络（RNN）运用在了DST领域.

DST任务需要对每个领域的不同槽位进行追

Language Understanding， NLU）和对话策略

［4］

（Dialog

Policy， DP）模块之间，可以将其简化成输入输出的

Speech Recognition， ASR）以及语音语言理解

DST的输出则是对话状态，用于选择下一步动作.但

形式，DST的输入往往是自动语音识别（Automatic

（Speech Language Understanding， SLU）的输出结果；

是ASR、SLU等组件的识别结果往往没有那么理想，

经常出现错误，这对DST本身的鲁棒性有着较高的

要求.所以DST的输出往往是各个对话状态的概率

分布，这样可以在多轮对话中进行修改，并且方便

系统向用户发起澄清语句.

随着深度学习的崛起，目前有许多深度神经网

络被提出并用做DST任务

［5-7］

踪，目的是为了在每轮对话过程中获得用户目标.

对此DST常用的建模方法主要有两种：分类式和判

别式，前者将DST视作一个多任务分类任务，也就

是说，DST任务需要为每个槽位都创建一个唯一的

分类器，这种做法带来的缺点也有很多.首先是泛

化能力不强.由于各个槽位都有着特定的分类器参

数，即便槽位在一定程度上很相似，但是也无法处

理另外一个槽位；其次在任务型对话数据集中，针

对某个领域只有少量数据时，分类器分到的数据集

也会变少，比如“餐厅-区域”和“电影院-区域”，火车

领域数据较多，而飞机领域数据则比较稀缺，如果

能通过训练“餐厅-区域”来处理“电影院-区域”，那

么就需要对模型的泛化能力有较高要求，另外分类

式还有可扩展性不高和无法并行处理槽位的问题.

除了分类式，还可以将DST任务建模成判别式.

判别式的工作流程则是计算槽位表征和槽值表征

可扩展性不高等问题，每次加入新的槽位，模型就

任务中共享了所有槽位的参数

［12］

，这样就可以充分

地利用训练数据来训练分类器.由于参数的共享机

制，使得模型能够处理相似的槽位，这样一来该模

型也就具有了一定的泛化能力.

1.2　基于BERT的对话状态追踪

之间的距离

［11］

.同样，判别式也存在泛化能力不足、

要重新训练.针对以上问题，RASTOGI等人在DST

，但是深度网络存在着

几个问题，比如说网络层次越深，需要的训练样本

数越多.若用于监督任务则需大量标注样本，小规

模样本则很容易造成过拟合.深层网络特征比较

多，会出现的多特征问题主要有多样本问题、规则

化问题、特征选择问题；同时多层神经网络还存在

参数优化经常得到收敛较差的局部解和梯度扩散

问题.为了解决这些问题，将预训练模型作用于DST

任务就是一个有效的方法，其中比较流行的预训练

模型就是ELMo

［8］

和BERT

［9］

.这样就可以在自己的

NLP数据集上使用该预训练模型，而无需从头开始

构建模型来解决类似的问题.

力，同时使用预训练模型还有助于缓解数据缺失的

问题.但由于BERT的12层输出层每层都包含着语

义信息，在做池化分类的时候往往没有利用其他层

的信息.所以本文将以端到端的对话状态跟踪任务

为研究对象，利用BERT不同层信息的微调策略上

对BERT进行微调.实验结果表明，BERT输出12层

拼接后再加上R-Drop正则约束在DST任务上取得

了较优的效果.

BERT拥有强大的语言表征能力和特征提取能

来进行特征的提取，采用了预训练加微调的训练模

式，通过遮蔽语言模型（Masked Language Model，

MLM）随机对输入序列中的某些位置进行遮蔽，然

后通过模型进行预测.MLM随机遮蔽模型输入中的

BERT使用了Transformer

［13］

模型的Encoder层

第 3 期

叶正，等：基于利用BERT不同层信息的微调策略的对话状态追踪

329

一些token，目标在于仅基于遮蔽词的语境来预测其

原始词汇id.与从左到右的语言模型预训练不同，

MLM 目标允许表征融合左右两侧的语境，从而预训

的BERT网络模型.除此之外，在训练BERT的过程

中还加入了下句预测任务（Next Sentence Prediction，

NSP），即同时输入两句话到模型中，然后预测第二

句话是不是第一句话的下一句话，它可以和MLM共

同预训练文本对的表示.通过MLM任务和NSP任务

来学习深度单词级和句子级的特征，在不同的下游

任务上通过微调的方式训练和测试，以此得到最终

的模型和实验结果.

BERT采用大量的无标签数据、充分的训练，学

练一个深度双向 Transformer，有利于训练得到更深

要简单地在训练过程中丢弃一部分神经元，而成为

了被最广为使用的正则化技术.

但是也正是因为训练过程中每次都会随机丢

弃部分神经元，这样就会产生不同的子模型，结果

就是Dropout在一定程度上使得训练后的模型是一

种多个子模型的组合约束.基于Dropout的这种特殊

方式对网络带来的随机性，WU等人提出了R-Drop

［16］

来进一步对（子模型）网络的输出预测进行正则约

束.R-Drop在训练过程中通过刻意对子模型之间的

输出进行约束，来约束参数空间，让不同的输出都

能一致，从而降低了训练与测试的不一致性.

习了字符级、单词级、句子级甚至句间关系的特征，

以至于在不同的下游NLP任务中，只需要为BERT

在特定任务中添加一个额外的输出层，即可进行训

练.在BERT被提出后，判别式模型中“槽值”也被赋

予了语义.大量的以BERT为编码器的模型出现并

用于DST任务

［14-15］

，通常的做法是将槽位名称或槽

位描述直接追加在上下文的前面或后面.这种编码

方式的输出相当于某个上下文感知的槽位表征，然

后在下游任务中接入一个分类器或直接对候选值

进行判别.BERT在DST任务上的实现通常是取最后

一层进行pooled-output得到任务需要的特征，这样

就往往忽略了BERT其他层的信息，同时pooled-

这个输出并不一定是对输入语义内容的一个很好

的总结.

1.3　R-Drop

output是由线性层和Tanh激活函数进一步处理的，

2　模型

本文所使用的模型编码器为BERT-Base，通过

注意力机制对拼接后的BERT的12层输出进行特征

权重的微调。任务流程是将系统会话、用户会话以

及槽值对作为输入，传到微调后的BERT编码器中

得到一个新的语义表示向量c,最后将该向量放到全

连接层中输出得到相应的分数，以此来表明预测的

结果是否正确.该方法类似于句子对的分类任务，

以下对模型结构进行具体介绍.

2.1　输入层

输入层的结构如图1所示，输入部分由前一个

回合的系统对话（System Utterance）、当前回合的用

户对话（User Utterance）以及候选槽值对（Candidate

Slot-Value Pair）三个输入段组成.通过BERT的

tokenizer模块进行分词得到每个输入段的token序

列，在输入序列的最前端添加特殊标记［CLS］作为

文本的语义表示，同时这三个输入段均用特殊标记

［SEP］进行分隔，进而得到一个单一的标记序列用

以传给模型层进行训练.

过拟合是很多深度学习网络的通病，在训练一

些大规模模型时往往会出现，导致泛化能力较差，

为了解决这些问题，出现了很多正则化技术，例如：

L2正则化，Dropout等，其中，Dropout技术由于只需

图1 输入层

2.2　模型结构

Fig.1　Input layer

模型层将第一个特殊字符［CLS］经过不同层

模型结构分为3个模块，为了更直观地观察模

型层结构，下文将输入层进行简化展示.模型结构

如图2所示，BERT由12层Transformer模块组成，

Transformer模块得到的输出向量记为

（2，...，

i=1，

12），不同的输出向量采用点积注意力来训练权重

得到最终的输出向量c.

330

中南民族大学学报（自然科学版）

第 42 卷

图2 模型结构

Fig.2　Model structure

2.2.1　点积注意力训练权重

选槽值对的概率分数.随后选择预测概率大于0.5

的作为该回合的最终预测值；同时使用新预测的槽

值对来更新前一回合状态中的对应值以获得当前

回合的对话状态.

2.2.3　损失函数

损失函数的定义参考R-Drop，目标包含两个部

注意力机制实质上就是一个寻址过程，通过给

定一个任务相关的查询Query向量Q，通过计算Key

的注意力分布并附加在Value上，从而计算出

意力概率分布作用过程，步骤如下：

入信息.

Attention Value，这当中涉及到注意力打分机制和注

X=[x

，...，x

N-1

]

表示N个输

首先是信息输入：

分，一个是两次输出之间的KL散度，其作用主要是

使两个不同的子模型预测的结果尽量保持相同，达

到模型优化的目的.通过最小化两个分布之间的双

向KL散度，减小Dropout训练和测试时带来的不同.

公式如下：

)||P

))+

)||P

)))

其次是注意力分布计算，令

Key=Value=X

，

则可以给出注意力分布：

=softmax(s(k

，q))=softmax(s(x

，q))

.（1）

根据打分机制计算注意力得分系数，其中点积

s(x

，q)=x

注意力的公式为：

（2）

最后是对信息加权：注意力分布

可以解释为

在上下文查询

时，第i个信息受关注的程度，采用

一种“软性”的信息选择机制对输入信息X进行编

码为：

attention(V)=

∑

=aV

i=1

另一个是模型自有的损失函数交叉熵，公式

如下：

NLL

=-log P

)-log P

)

（5）

（6）

（7）

最终的总损失函数则定义为两者的加权和：

其中

是控制

权重的系数.

NLL

+α∙L

，

2.2.2　输出层

（3）

输出向量c传入到输出层.输出层则直接使用

一层全连接层，用于得到最终的评分.分数的相关

概率为：

y= σ(Wc+b)∈IR

，

3　实验与分析

3.1　数据集与评价指标

本文实验主要在数据集WoZ2.0

［17］

上进行.

（4）

其中，变换矩阵W和偏置项b为模型参数，σ为

Sigmoid函数，它的作用是将分数压缩至0到1之间.

在每个回合中，BERT模型被用来估计每个候

WoZ2.0是面向餐馆预定场景的单领域数据集，语料

库由WoZ1.0版本的600轮单域对话扩充到1200个

单域对话，由用户对话和系统对话组成，旨在帮助

第 3 期

叶正，等：基于利用BERT不同层信息的微调策略的对话状态追踪

331

用户找到合适的餐厅.其中本体包括3个槽位：食

物、价格和区域.该数据集可以有效检验模型在单

领域上的效果.

为了更好地评估BERT输出层拼接对提高DST

任务的有效性，与之前的工作类似，实验指标选择

（Joint Goal Accuracy），即比较每一轮的预测输出值

与真实状态值，只有当且仅当状态中的每个槽值均

预测正确时，才认为本轮预测正确.

3.2　实验设置

本次实验是在单块Quadro RTX 6000显卡上进

DST任务中十分常用且先进的联合目标精度

［18］

表2　引入R-Drop正则化后BERT层数选择在WoZ2.0测试集上的

联合目标精度

Tab.2　After introducing R-Drop regularization， the Joint Goal

Accuracy of BERT layer selection on WoZ2.0 test set

Models

90.6

91.1

91.0

90.5

91.7

90.0

90.4

Joint Goal Accuracy /%

BERT_RDROP（后4层 + 拼接）

BERT_RDROP（后4层 + 平均）

BERT_RDROP（全部12层 + 拼接）

BERT_RDROP（全部12层 + 平均）

BERT_RDROP（全部12层 + 最大）

BERT_RDROP（后4层 + 最大）

BERT_RDROP（Base）

行的，使用网格搜索来设置BatchSize大小和学习

率，其中BatchSize大小的范围为［16， 32， 64］，学习

率设置的范围为［0.00001， 0.00002， 0.0002］，选用

的预训练模型是BERT-Base版本，该模型由12层

Transformer组成，有768个单元的隐藏层和12个自

和0.9%.通过表2的实验结果可发现在加入R-Drop

正则模块后，在BERT输出后4层取平均、BERT输

出12层拼接的联合目标精度值有明显的提高，其结

果比没有引入R-Drop的分别高出1.6%和1.4%，其

中BERT输出12层拼接相比于基线模型也高出了

1.0%，同时也是层数选择中效果最好的一个.这说

是可行的.

同样地，为了验证基于利用BERT不同层信息

的微调策略方法的有效性，本文还选取了目前DST

任务中的一些效果较好的网络模型，比如GLAD

［21］

、

［22］

StateNet

以及Neural Belief Tracker

［23］

，作为对比，将这

我注意头.最后根据最优的结果设置训练中

BatchSize的大小（设置为16），epoch为25，优化器使

proportion）设置为0.1.

3.3　实验结果与分析

］

用Adam，学习率为0.00002，预热学习率

［19

（warmup_

明引入R-Drop正则模块后对部分实验结果的提高

为了验证利用BERT不同层信息的微调策略方

法的有效性，本文以BERT-Base的结果为基线模型，

对BERT的层数选择进行变动，根据SUN等人的实

验

［20］

，特别地选取了BERT输出层的后4层和全部

12层，并对其采取拼接、平均或最大三种方法，实验

结果如表1所示.

表1　BERT微调策略下的层数选择在WoZ2.0测试集上的

联合目标精度

Tab.1　Joint Goal Accuracy of layer number selection under BERT

fine-tuning strategy on WoZ2.0 test set

ModelsJoint Goal Accuracy /%

90.7

91.3

89.4

91.6

90.3

90.5

90.1

些模型与表2中结果最好的BERT全部12层拼接加

上R-Drop正则模块进行对比实验，结果如表3所示.

表3　不同模型在WoZ2.0测试集上的联合目标精度

Tab.3　Joint Goal Accuracy of different models on WoZ2.0 test set

Models

GLAD

Joint Goal Accuracy /%

88.1

88.9

84.2

91.7

BERT（后4层 + 拼接）

BERT（后4层 + 平均）

BERT（全部12层 + 拼接）

BERT（全部12层 + 平均）

BERT（全部12层 + 最大）

BERT（后4层 + 最大）

BERT-Base

BERT_RDROP（全部12层 + 拼接）

Neural Belief Tracker

StateNet

从表3中可以看出，在BERT经过输出12层拼

接之后，再利用R-Drop正则约束来增强DST任务中

预测结果的准确性，该方法在DST任务中非常关键

的联合目标精度指标上比其他几个网络模型的实

验结果要高出不少，进一步证明了对BERT输出层

的层数选择上的改动是有效的，可以获得更多的语

义信息.这说明利用BERT不同层信息的微调策略

这种方法在DST任务中具有一定优势.

Drop正则模块对其进行优化，其中BERT_RDROP

引入后的实验结果如表2所示.

从表1的结果不难看出，在没有加入R-Drop正

则模块时，对BERT输出后4层进行拼接和最大的结

同时为了提高模型的稳定性，实验中还引入R-

表示BERT引入R-DROP正则模块后的模型结构，

4　总结

为了完成面向任务型对话系统中的状态跟踪果相对于BERT-Base有小幅度提高，分别高出0.6%

332

中南民族大学学报（自然科学版）

第 42 卷

任务，本文选用了目前NLP中效果非常出色的预训

练模型BERT，在只有一个附加输出层的情况下对

BERT模型进行微调，进而降低了对NLP任务精心

设计特定体系结构的需求，同时由于BERT预测屏

［P］//dings of the 56th Annual Meeting of the

Association for Computational Linguistics. Melbourne：

［8］ PETERS M， NEUMANN M， IYYER M， et al. Deep

contextualized word representations［C］//NAACL-HLT.

Proceedings of the 2018 Conference of the North

American Chapter of the Association for Computational

ACL， 2018：2227-2237.

ACL， 2018：108-113.

蔽子词进行训练，这种特殊方式在语句级的语义分

析中取得了极好的效果；另外，在BERT层数的选择

上进行改动，利用BERT不同层的信息来进行微调，

不再局限于BERT输出最后一层进行池化分类，而

是更加灵活地选择输出层进行模型训练.在WoZ2.0

数据集上的实验结果显示：当BERT输出层的全部

息，同时由于引入了R-Drop正则模块，提高了模型

的稳定性，其结果在DST任务中的最关键指标——

联合目标精度上相较于BERT-Base有了提升，表明

基于利用BERT不同层信息的微调策略在完成DST

任务上的有效性.

参考文献

Linguistics： Human Language Technologies. New Orleans：

［9］ DEVLIN J ， CHANG M W ， LEE K ， et al. BERT：Pre-

training of deep bidirectional transformers for language

understanding［C］//NAACL-HLT. Proceedings of the

2019 Conference of the North American Chapter of

Language polis：ACL， 2019： 4171-

4186.

the Association for Computational Linguistic： Human

12层进行拼接时，可以更加有效地融合每层的信

［10］ HENDERSON M， THOMSON B， YOUNG S. Deep

neural network approach for the dialog state tracking

2013 Conference. Metz： ACL， 2013： 467-471.

challenge［C］//SIGDIALP. Proceedings of the SIGDIAL

［11］ MRKŠIĆ N， SÉAGHDHA D O， WEN T H， et al.

Neural belief tracker： Data-driven dialogue state

Meeting of the Association for Computational Linguistics.

Vancouver： ACL， 2017： 1777-1788.

tracking［C］//ACL. Proceedings of the 55th Annual

［1］ WEN T H， VANDYKE D， MRKŠIĆ N， et al. A network-

［C］//dings of the 15th Conference of the

European Chapter of the Association for Computational

［2］ ZHONG V， XIONG C， SOCHER R. Global-locally self-

attentive dialogue state tracker［J］.arXiv Preprint， arXiv：

［3］ GUPTA S， SHAH R， MOHIT M， et al. Semantic parsing

［C］//EMNLP. Proceedings of the 2018 Conference on

Empirical Methods in Natural Language Processing.

［4］ TAKANOBU R， ZHU H， HUANG M. Guided dialog

policy learning：Reward estimation for multi-domain task-

oriented dialog［C］//EMNLP. Proceedings of the 2019

Conference on Empirical Methods in Natural Language

Processing and the 9th International Joint Conference on

100-110.

Brussels：ACL， 2018：2787-2792.

for task oriented dialog using hierarchical representations

1805.09655， 2018.

Linguistics. Valencia：ACL， 2017： 438-449.

based end-to-end trainable task-oriented dialogue system

［12］ RASTOGI A， HAKKANI-TÜR D， HECK L. Scalable

multi-domain dialogue state tracking［C］//IEEE. 2017

IEEE Automatic Speech Recognition and Understanding

a：IEEE， 2017： 561-568.

［13］ VASWANI A， SHAZEER N， PARMAR N， et al.

Attention is all you need［C］//NIPS. Advances in Neural

Information Processing Systems 30： Annual Conference

NIPS， 2017： 5998-6008.

on Neural Information Processing Beach：

［14］ LAI T M， TRAN Q H， BUI T， et al. A simple but

effective bert model for dialog state tracking on resource-

limited systems［C］//IEEE.2020 IEEE International

Barcelona： IEEE， 2020： 8034-8038.

Natural Language Processing. Hong Kong：ACL， 2019：

［5］ REN L， XIE K， LU C， et al. Towards universal dialogue

state tracking［C］//EMNLP. Proceedings of the 2018

Conference on Empirical Methods in Natural Language

Processing. Brussels：ACL， 2018：2780-2786.

Conference on Acoustics， Speech and Signal Processing.

［15］ CHAO G L， LANE I. BERT-DST：Scalable end-to-end

dialogue state tracking with bidirectional encoder

representations from transformer［C］//ISCA. 20th

Annual Conference of the International Speech

Communication Association. Graz： ISCA， 2019： 1468-

1472.

［6］ NOURI E， HOSSEINI-ASL E. Toward scalable neural

dialogue state tracking model［J］. arXiv e-prints， arXiv：

［7］ MRKI N ， VULI I. Fully statistical neural belief tracking

1812.00899， 2018.

［16］ WU L， LI J， WANG Y， et al. R-drop： regularized

dropout for neural networks［C］//NIPS. Advances in

Neural Information Processing Systems 34： Annual

第 3 期

叶正，等：基于利用BERT不同层信息的微调策略的对话状态追踪

333

Conference on Neural Information Processing Systems.

［17］ WEN T H， VANDYKE D， MRKSIC N， et al. A

network-based end-to-end trainable task-oriented dialogue

system［C］//EACL. Proceedings of the 15th Conference

of the European Chapter of the Association for

438-449.

Online：NIPS， 2021： 10890-10905.

text classification？［C］ // National Conference

Springer， 2019： 194-206.

on Chinese Computational Linguistics. Kunming：

［21］ ZHONG V ， XIONG C ， SOCHER R. Global-locally

self-attentive encoder for dialogue state tracking［C］//

ACL， 2018：1458-1467.

ACL. Proceedings of the 56th Annual Meeting of the

Computational Linguistics. Valencia：ACL， 2017：

［18］ HENDERSON M， THOMSON B， WILLIAMS J. The

Annual Meeting of the Special Interest Group on

263-272.

second dialog state tracking challenge［C］//SIGDIAL.15th

Discourse and Dialogue. Philadelphia：ACL， 2014：

［19］ HE K， ZHANG X， REN S， et al. Deep residual

learning for image recognition［C］//IEEE. Proceedings of

the IEEE Conference on Computer Vision and Pattern

Vegas： IEEE， 2016： 770-778.

Association for Computational Linguistics. Melbourne：

［22］ REN L ， XIE K ， LU C ， et al. Towards universal

dialogue state tracking［C］//dings of the

2018 Conference on Empirical Methods in Natural

Language Processing. Brussels： ACL， 2018：2780-

2786.

belief tracker： Data-driven dialogue state tracking［C］//

ACL， 2017：1777-1788.

［23］ MRKI N， DIARMUID S， WEN T H， et al. Neural

dings of the 55th Annual Meeting of the

［20］ SUN C， QIU X，XU Y， et al. How to fine-tune BERT for

Association for Computational ver：

（责编曹东，校对雷建云）

本文标签：模型对话任务进行输出

版权声明：本文标题：基于利用BERT_不同层信息的微调策略的对话状态追踪内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1710340529a568505.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于利用BERT_不同层信息的微调策略的对话状态追踪

更多相关文章

世界模型【论文】

微软软件开发过程与团队模型（转载）

cg查看器html,王者荣耀3d模型查看器网站

在Windows系统下部署运行ChatGLM3-6B模型

类ChatGPT的各种语言大模型LLM开源Github模型集合​

发现一个开源的Chatgpt-web应用，前端使用vue编写，后端也是nodejs代码编写的，还可以配合fastchat本地部署chatglm3大模型，可以调用成功

Github大模型优质资源分类整理与进一步梳理

Wombat：93%ChatGPT性能，无需RLHF就能对齐人类的语言模型

Ps：颜色模型、色彩空间及配置文件

【AI大模型】ChatGPT模型原理介绍

《DeepSeek R1 人工智能大模型最简安装步骤》

Windows下载安装Ollama本地运行大模型，新手详细

ChatGPT最新模型canvas是什么？

重构大模型磁力，要在豆包身上找答案

一文教你在windows上实现ollama+open webui、外网访问本地模型、ollama使用GPU加速

Windows搭建Docker+Ollama+Open-WebUI部署DeepSeek本地模型

《DeepSeek R1 人工智能大模型最简安装步骤》：此文为AI自动生成

【YOLO部署Android安卓手机APP】YOLOv8部署到安卓实时目标检测识别——官方自训练模型YOLOv8人脸车辆等目标检测（可自定义更换其他目标）

大模型相关网站整理

AI大模型 DeepSeek VS ChatGPT VS Claude：分别适合什么场景使用？（理论篇）

发表评论

推荐文章

javascript - Display image using angular 2 - Stack Overflow

c# - Drag and drop in .NET MAUI Blazor Hybrid not working – WebView2 or interop issue? - Stack Overflow

javascript - How to convert Moment.js moment to unix timestamp - Stack Overflow

javascript - How can I stream a video from a ServiceWorker? - Stack Overflow

javascript - Uncaught TypeError: Cannot read property &#39;filter&#39; of undefined - Stack Overflow

热门文章

Circular view path [error]: would dispatch back to the current handler URL [error] again. Check your ViewResolver setup! springb

javascript - How to pass parameters to a function that is getting triggered by an event handler? - Stack Overflow

javascript - Vue.js + Element-ui Upload: how call method ClearFiles or Abort - Stack Overflow

amazon web services - Unhealthy health checks in ALB - Stack Overflow

qt - Setting dynamically created QML rectangle&#39;s drag.target property via JavaScript - Stack Overflow

电脑主机多少功率每个笔记本的功率都不同，你知道吗？

Build Image with Podman under Windows - Dockerfile contains UID &gt; 1000000000 - Stack Overflow

database - How to put right interval bound of timestamp in SAMPLE BY query - Stack Overflow

html - Toggle the class of unordered list items using simple Javascript - Stack Overflow

backend - Go (GoLang) GorillaMux server returns 404 when there is an empty string between two slashes in http path - Stack Overf

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

类ChatGPT的各种语言大模型LLM开源Github模型集合

javascript - Uncaught TypeError: Cannot read property 'filter' of undefined - Stack Overflow

qt - Setting dynamically created QML rectangle's drag.target property via JavaScript - Stack Overflow

Build Image with Podman under Windows - Dockerfile contains UID > 1000000000 - Stack Overflow