admin 管理员组文章数量: 1184232
这篇文章主要探讨了 ChatGPT 在自然语言理解(NLU)任务上的表现,并与微调的 BERT 模型进行了对比。以下是文章的主要内容总结:
-
研究背景:
-
ChatGPT 因其生成流畅且高质量的回答而受到广泛关注,但其在自然语言理解任务上的表现尚未得到充分研究。
-
本文通过 GLUE 基准 评估 ChatGPT 的理解能力,并与 4 个代表性的微调 BERT 模型进行比较。
-
-
主要发现:
-
ChatGPT 在释义和相似性任务上表现不佳,尤其是在处理负面释义和中性相似性样本时。
-
ChatGPT 在推理任务上大幅优于 BERT 模型,展示了其强大的推理能力。
-
ChatGPT 在情感分析和问答任务上与 BERT-base 表现相当。
-
ChatGPT 有时会生成矛盾或不合理的回答,表明其在推理和细粒度语义理解上存在局限性。
-
-
改进方法:
-
通过引入 先进的提示策略(如少样本提示、手动少样本链式思维提示、零样本链式思维提示),ChatGPT 的理解能力得到了显著提升。
-
特别是 手动少样本链式思维提示 带来了最大的性能提升,使 ChatGPT 在某些任务上甚至超越了强大的 RoBERTa-large 模型。
-
-
结论:
-
ChatGPT 在理解任务上的表现与微调的 BERT 模型相当,但在某些 NLU 任务上仍无法超越当前的最先进模型。
-
未来的研究可以进一步探索如何解决 ChatGPT 的局限性,并提升其在自然语言理解任务上的表现。
-
-
局限性:
-
由于测试限制,本文仅在 GLUE 基准的部分数据集上进行了评估,未来可以在更多任务和数据集上进行更全面的测试。
-
总的来说,本文通过系统的实验和分析,揭示了 ChatGPT 在自然语言理解任务上的优势和不足,并展示了通过提示策略提升其性能的潜力。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里。
摘要
最近,ChatGPT 因其能够生成流畅且高质量的回答而引起了广泛关注。多项研究表明,ChatGPT 在生成任务上表现出色,但其理解能力的定量分析却鲜有研究。本报告通过在最流行的 GLUE 基准上评估 ChatGPT,并与 4 个代表性的微调 BERT 模型进行比较,探讨了 ChatGPT 的理解能力。我们发现:1) ChatGPT 在处理释义和相似性任务时表现不佳;2) ChatGPT 在推理任务上大幅优于所有 BERT 模型;3) ChatGPT 在情感分析和问答任务上与 BERT 表现相当。此外,通过结合一些先进的提示策略,我们展示了 ChatGPT 的理解能力可以进一步提升。
1 引言
大型语言模型(LLMs),如 GPT-3(Brown 等,2020)和 InstructGPT(Ouyang 等,2022),已经在自然语言处理(NLP)领域引起了广泛关注。由于其涌现的能力(Wei 等),这些 LLMs 在各种 NLP 任务中表现出色,尤其是在少样本和零样本学习方面。最近,OpenAI 基于 InstructGPT 开发的 ChatGPT 引起了广泛关注。与之前的公共聊天机器人不同,ChatGPT 能够生成流畅且全面的回答,甚至能够纠正不恰当的人类提问。
根据传统观点,“GPT 风格的模型在生成任务上表现良好,但在理解任务上表现较差,甚至不如基础大小的 BERT(Devlin 等,2019)”,我们想知道在 ChatGPT 场景中是否存在类似的现象。对于 ChatGPT 的生成能力,多项研究(Jiao 等,2023;Bang 等,2023;Wang 等,2023)表明,ChatGPT 在多个生成任务上表现优于现有的 LLMs。然而,目前尚不清楚 ChatGPT 在自然语言理解(NLU)任务上是否也表现良好。
在本报告中,我们通过系统研究探讨了这个问题:“ChatGPT 也能理解吗?”。我们通过在权威且流行的 GLUE(Wang 等,2019)基准上评估 ChatGPT 来回答这个问题,涵盖了 8 个代表性的理解任务,包括情感分析、语言可接受性、释义、文本相似性、自然语言推理和问答。作为参考,我们还将其与 4 个代表性的 BERT 模型进行了比较。通过一系列实验和分析,我们发现:
-
ChatGPT 在处理释义和相似性任务时表现不佳。具体来说,ChatGPT 在负面释义和中性相似性样本上表现较差。
-
ChatGPT 在推理任务上大幅优于所有 BERT 模型,表明其具有出色的推理能力。
-
ChatGPT 在情感分析和问答任务上与 BERT-base 表现相当。
-
尽管 ChatGPT 在推理任务上表现良好,但它可能会生成一些矛盾或不合理的回答,这可能是其潜在的局限性。
此外,除了分析 ChatGPT 本身,我们还探讨了 ChatGPT 与一些先进提示策略的互补性,即标准少样本提示(也称为上下文学习,Brown 等,2020)、手动少样本链式思维(CoT)提示(Wei 等)和零样本 CoT 提示(Kojima 等,2022)。通过实验,我们发现 1 所有这些提示策略都能一致地提升 ChatGPT 的性能,其中手动 CoT 带来的性能提升最大。有趣的是,我们还观察到 2 上下文学习的性能对提供的示例相对敏感,尤其是在 1-shot 场景中,这与 Agrawal 等(2022)的研究结果相似。一个可能的原因是上下文学习的性能与提供的示例和测试数据之间的相关性(例如,相似性)高度相关。
总的来说,ChatGPT 的零样本性能与基线微调 BERT-base 模型相当。借助先进的提示策略,ChatGPT 表现出更好的理解能力,甚至在某些 NLU 任务上优于强大的 RoBERTa-large 模型。然而,ChatGPT 与微调 RoBERTa-large 在平均性能上仍存在差距。也就是说,尽管 ChatGPT 能够很好地解决许多 NLP 问题,但在某些 NLU 任务上仍无法超越当前的最先进模型(He 等,2021;Wang 等,2020;Zhong 等;Patra 等,2022;Zhong 等,2023)。
本报告的其余部分安排如下:我们在第 2 节中介绍了评估设置和比较结果。在第 3 节中,我们探讨了是否可以通过先进的提示策略改进 ChatGPT。在第 4 节中,我们简要回顾了相关工作。结论在第 5 节中描述。
2 ChatGPT 与 BERT
在本节中,我们首先介绍评估设置(§2.1),然后展示主要结果(§2.2)。接着,我们提供了一些关于 ChatGPT 表现优劣的分析(§2.3)。最后,我们展示了一些 ChatGPT 的失败案例,以探讨其潜在的局限性(§2.4)。
2.1 评估设置
在这里,我们简要介绍评估设置,包括下游任务和数据集、基线模型以及 ChatGPT 的提示。
2.1.1 任务和数据集
遵循许多先前的工作(Zhong 等),我们使用广泛使用的 GLUE 基准(Wang 等,2019)进行模型评估。作为最流行的 NLU 基准之一,GLUE 包含多个具有挑战性的 NLU 任务,包括语言可接受性(CoLA,Warstadt 等,2019)、情感分析(SST-2,Socher 等,2013)、释义(MRPC,Dolan 和 Brockett,2005)、文本相似性(STS-B,Cer 等,2017)、问题释义(QQP)、文本蕴含(MNLI,Williams 等,2018;RTE,Giampiccolo 等,2007)和问答蕴含(QNLI,Rajpurkar 等,2016)。考虑到测试 ChatGPT 的限制,我们遵循 Jiao 等(2023)的方法,从每个任务的开发集中随机抽取一个子集作为评估数据。具体来说,由于大多数 GLUE 任务是分类任务(除了 STS-B 是回归任务),我们从开发集中为每个类别随机抽取 25 个实例。对于 STS-B,我们从均匀分布中随机抽取 50 个实例。表 1 显示了任务描述和统计数据。
对于评估,我们使用准确率(“Acc.”)作为大多数任务的性能指标,除了 STS-B 使用 Pearson 和 Spearman 相关系数(“Pear/Spea.”),CoLA 使用 Matthew 相关系数(“Mcc.”),MRPC 和 QQP 还使用 F1 分数。
2.1.2 基线模型
我们将 ChatGPT(1 月 31 日版本)与 4 个代表性的 BERT 风格模型进行比较,因为 BERT 模型通常被用作评估理解能力的基线(Zhong 等)。具体来说,我们使用了基础大小/大尺寸的 BERT(Devlin 等,2019)和 RoBERTa(Liu 等,2019)。所有模型都在每个任务的全训练集上进行了微调,微调超参数与 Zhong 等(2023b)相同。为了估计 ChatGPT 理解能力的下限,我们主要关注 ChatGPT 与基础大小的 BERT 之间的比较。
2.1.3 ChatGPT 的提示
对于每个任务,我们设计了任务特定的提示来触发 ChatGPT 的理解能力。具体来说,受 Jiao 等(2023)的启发,我们还要求 ChatGPT 为每个任务生成提示,通过输入以下人类询问:
提供五个简洁的提示或模板,使您能够处理 [x] 任务
其中 [x] 是任务槽。以情感分析任务为例,我们在图 1 中展示了这个过程。我们在初步实验中评估了 ChatGPT 在这五个候选提示下的表现,发现性能差异不大。因此,为了简单起见,我们为每个任务选择了一个典型的提示,并在表 1 中展示。
2.2 主要结果
表 2 显示了 GLUE 基准上的完整结果。总体而言,ChatGPT 的平均性能与 BERT-base 相当(78.7% vs. 79.2%),但仍明显落后于其他强大的 BERT 风格模型(例如 RoBERTa-large,87.8%)。这些结果表明,ChatGPT 具备基本的理解能力,但仍有许多改进空间。
具体来说,将 ChatGPT 与 BERT-base 在特定任务上进行比较,我们发现:1) ChatGPT 在释义和相似性任务(即 MRPC 和 STS-B)上表现不佳,性能下降高达 24 分。2) ChatGPT 在自然语言推理任务(即 MNLI 和 RTE)上优于所有 BERT 风格模型,表明其在推理/推理方面的优越性。3) ChatGPT 在单句分类任务(即情感分析(SST-2)和语言可接受性(CoLA))和问答相关任务(即 QNLI)上与 BERT-base 相当。
2.3 分析
从表 2 中可以看出,ChatGPT 在推理任务上表现良好,但在处理释义和相似性任务时表现不佳。在这里,我们详细研究了 ChatGPT 在这些特殊任务上的表现。
推理任务
为了更深入地了解 ChatGPT 在推理任务上表现出色的原因,我们报告了 ChatGPT 和对比模型在 MNLI 和 RTE 任务上的每类准确率。结果如表 3 所示。可以看出,ChatGPT 在所有设置中都大幅优于 BERT-base。特别是在“蕴含”类别中,即前提蕴含假设,ChatGPT 甚至明显优于所有强大的 BERT 模型。这些结果继续展示了 ChatGPT 在推理事实输入方面的有效推理能力。
释义任务
与上述分析类似,我们还报告了 ChatGPT 和其他模型在释义任务(即 MRPC)上的每类准确率,如表 4 所示。令人惊讶的是,ChatGPT 在评估“蕴含”样本时与 BERT-base 表现相当,但在“非蕴含”类别中表现急剧下降(高达 47 分),即句子对中的句子在语义上不等价。这表明 ChatGPT 对句子对之间的语义差异不敏感,这可能与模型训练过程中缺乏人类反馈有关。
相似性任务
由于 STS-B 是一个回归任务,我们从均匀相似性分布中选择了一些样本,范围从 0(无意义重叠)到 5(意义等价),并展示了 ChatGPT 和 BERT-base 的预测与真实值之间的绝对差异。如图 2 所示,ChatGPT 在大多数情况下表现不如 BERT-base,因为它通常预测得远离真实值。更具体地说,我们可以观察到,当句子对中的句子相似性较低(<2.5 分)时,ChatGPT 表现更差,这与表 4 中的观察结果相似。还可以发现,ChatGPT 难以准确预测决策边界附近(约 2.5 分)的句子对的相似性分数。其中一个原因是 ChatGPT 没有在 STS-B 任务上进行微调,无法确定正确的决策边界。我们在第 3 节中展示了,基于 ChatGPT 的先进提示策略可以显著改善这一点。
2.4 案例研究
在这里,我们展示了一些 ChatGPT 的失败案例,以探讨其潜在的局限性,并尝试解释为什么 ChatGPT 在处理释义任务的负面样本时表现不佳。
首先,尽管 ChatGPT 在推理任务上表现良好,但在某些情况下仍然无法做出正确的预测。如图 3 所示,ChatGPT 由于其强大的生成能力,能够生成流畅的回答。然而,我们观察到这些回答有些矛盾甚至不合理。例如,在上面的案例中,ChatGPT 说“……Jane 饿了,这是她给 Joan 糖果的原因……”,这非常令人困惑。如果 Jane 真的饿了,她不会给 Joan 糖果,而是自己吃糖果。在下面的案例中也有类似的现象,ChatGPT 的回答逻辑混乱。总的来说,ChatGPT 能够按照某种模式生成流畅的回答,但在真正推理句子时似乎存在局限性。一个证据是,ChatGPT 甚至无法回答一些人类很容易回答的问题,如图 3 中的案例。
另一方面,图 4 展示了 ChatGPT 在释义任务中的一些失败案例。这两个案例都属于“非蕴含”类别。ChatGPT 认为这两个句子具有相同的语义,因为两个句子都描述了值的减少(增加),这可以被视为粗粒度的语义相似性。然而,我们可以很容易地发现,这两个句子的主要区别在于值的差异,这决定了这些案例的“非蕴含”极性。我们将这种值差异称为细粒度的语义差异。这些案例表明,粗粒度和细粒度语义信息之间的差异可能是 ChatGPT 在处理释义任务的负面样本时表现不佳的原因之一。这也表明,增强 ChatGPT 提取细粒度语义信息的能力将有效提高其在释义任务上的表现。
3 通过先进提示策略改进 ChatGPT
如第 2 节所述,我们主要关注 ChatGPT 的零样本学习性能,评估结果表明,在某些 NLU 任务上,ChatGPT 与微调 BERT 模型之间仍存在明显差距。受一些先进提示方法(Brown 等,2020;Wei 等;Kojima 等,2022)的启发,这些方法可以有效利用 LLMs 的能力,我们尝试研究这些方法是否也能提高 ChatGPT 的理解能力,并缩小其与强大 BERT 模型的性能差距。
3.1 先进提示策略
在本研究中,我们使用了以下三种流行的提示策略:
-
标准少样本提示:也称为上下文学习(Brown 等,2020),它可以通过提供一些输入-输出示例来“提示”模型执行目标任务。具体来说,如图 5 (b) 所示,它通过将一些提示示例作为输入的一部分,使 ChatGPT 能够执行目标任务。
-
手动少样本 CoT 提示:链式思维(CoT)提示由 Wei 等提出,它提供了手动中间推理步骤(演示)来引导模型逐步输出最终答案。
-
零样本 CoT:Kojima 等(2022)提出了一种零样本 CoT 方法,它使用简单直接的模板提示进行 CoT 推理。具体来说,如图 5 (c) 所示,我们使用
图 5:展示了 ChatGPT 配备 (b) 标准少样本提示(Brown 等,2020)、(c) 零样本链式思维(CoT)提示(Kojima 等,2022)和 (d) 手动少样本 CoT 提示(Wei 等)的示例。此测试示例来自 CoLA(Warstadt 等,2019)的开发集,而少样本示例(绿色)来自训练集。我们可以发现,借助先进的提示策略,ChatGPT 表现出更好的理解能力。
3.2 更多结果和分析
表 5 显示了 ChatGPT 配备先进提示策略后在 GLUE 基准上的整体结果。作为参考,我们还比较了改进后的 ChatGPT 与基线 BERT-base 和强大的 RoBERTa-large 模型。基于这些实证结果,我们可以进一步发现:
0 ChatGPT 从所有这些提示策略中受益。 与基线 ChatGPT(78.7%),即零样本 ChatGPT 相比,所有这些提示策略都带来了一些性能改进。具体来说,标准少样本提示和零样本 CoT 分别将 ChatGPT 的整体性能提高了 +5.1% 和 +5.0% 的平均分数。更令人鼓舞的是,借助手动少样本 CoT,ChatGPT 实现了高达 +7.5% 的平均增益,甚至优于大多数 BERT 风格模型(除了 RoBERTa-large)。这些结果表明,使用手动 CoT 提示 ChatGPT 可能是利用其能力的帕累托前沿。
0 在 1-shot 场景中,ChatGPT 的性能对给定的上下文示例相对敏感。 尽管在少样本设置中整体性能有所提升,但我们可以发现,ChatGPT 在这些 NLU 任务上的表现并不一致,尤其是在 1-shot 场景中。更具体地说,当配备标准 1-shot 提示时,ChatGPT 在某些任务上表现更差,例如 CoLA、MRPC、MNLI 和 RTE。我们将其归因于随机采样的上下文示例与测试数据之间的相关性较低,正如先前的工作(Agrawal 等,2022)所示,1-shot 噪声无关示例可能会对输出质量产生灾难性影响。为了进一步验证这一猜想,我们使用不同的 1-shot 示例来执行标准 1-shot 提示。以 CoLA 任务为例,比较结果如图 6 所示。可以看出,1-shot 性能不稳定,当给定更相关的 1-shot 示例时,ChatGPT 可以获得更多的性能提升,这证实了我们的说法。
3 ChatGPT 与微调 RoBERTa-large 之间仍存在性能差距
借助手动 CoT,ChatGPT 实现了显著的性能提升,并在某些任务上展示了最先进的(SOTA)性能,例如 CoLA、SST-2 和 RTE。然而,可以看出,与微调 RoBERTa-large 相比,ChatGPT 在某些任务上仍然表现不佳,尤其是释义任务(MRPC),差距明显。这些结果继续表明,尽管 ChatGPT 能够很好地解决许多 NLP 问题,但在某些 NLU 任务上仍无法超越当前的最先进模型。
注意
一些读者可能会担心我们的工作可能是一种“彩票”,因为我们只评估了 ChatGPT 在每个任务的部分验证集上。为了消除这种疑虑,我们调查了在完整数据设置下是否有类似的发现。具体来说,以 RTE 任务为例,我们分别在少数据和全数据设置下报告了 ChatGPT 的相应结果,如表 6 所示。可以发现,ChatGPT 在两种场景下表现出相似的特征(例如,显著受益于手动 CoT),这表明我们的工作是可信的。
4 相关工作
近年来,我们见证了众多基于 Transformer 的预训练语言模型(PLMs)(Devlin 等,2019;Liu 等,2019;Brown 等,2020;Raffel 等,2020;Lewis 等,2020;Zhong 等,2022a,2023)在各种自然语言处理(NLP)任务中取得了巨大成功。根据模型架构,这些 PLMs 可以分为三组:1) 仅编码器 PLMs(例如 BERT,Devlin 等,2019),2) 仅解码器 PLMs(例如 GPT-3,Brown 等,2020)和 3) 编码器-解码器 PLMs(例如 T5,Raffel 等,2020)。由于不同的预训练功能,这些 PLMs 在执行 NLP 任务时表现出不同的能力。具体来说,BERT 风格的模型基于双向掩码语言建模(MLM)目标,这迫使模型编码上下文信息。通过在特定任务上进行微调,这些 BERT 风格的模型可以在各种自然语言理解(NLU)任务上表现良好。相反,GPT 风格的模型旨在预测未来单词的序列。这种自回归模型非常适合语言生成,但它们是单向的,通常在理解句子的表示学习方面表现不佳(Liu 等,2021;Zhong 等,2022a)。
最近,许多工作集中在扩展 PLMs 和开发大型语言模型(LLMs)(Ouyang 等,2022;Chowdhery 等,2022;Smith 等,2022;Zhang 等,2022)。Wei 等(2022a)表明,当模型规模足够大时,LLMs 表现出涌现能力,例如少样本和零样本学习。作为一个典型的 LLM,最近发布的 ChatGPT 因其生成流畅且高质量回答的出色能力而引起了广泛关注。越来越多的研究探索了 ChatGPT 的能力、应用、伦理和失败(Jiao 等,2023;Bang 等,2023;Qin 等,2023;Zhuo 等,2023;Wang 等,2023)。沿着这一研究路线,我们主要关注分析 ChatGPT 的理解能力,这很重要但鲜有研究。
5 结论
在本研究中,我们通过一系列定量研究,实证探讨了 ChatGPT 在各种自然语言理解任务上的语言理解能力。我们发现,ChatGPT 在推理任务上表现良好,但在处理释义和相似性任务时表现不佳,尤其是在负面实例上。此外,我们尝试通过一些先进的提示策略来提高 ChatGPT 的理解能力。结果表明,借助这些提示策略,ChatGPT 可以实现显著的性能提升,甚至在某些任务上优于强大的 RoBERTa-large。总的来说,ChatGPT 的理解能力与一些微调的 BERT 风格模型相当,但在某些 NLU 任务上仍无法超越当前的最佳模型。我们希望我们的研究能够促进更多关于如何解决 ChatGPT 的局限性并提高其理解性能的研究。
局限性
我们的工作有几个潜在的局限性。首先,由于测试 ChatGPT 的限制,我们主要在每个任务的部分验证集上评估 ChatGPT。如果我们能在更多样本上进行测试,结果将更有说服力。另一方面,本报告仅使用 GLUE 基准进行实验,其中任务类型有些有限。在未来的工作中,我们希望在更多 NLU 任务上评估 ChatGPT,并进行更深入的分析和讨论。
附录 A
A.1 任务详情
在本工作中,我们在 GLUE(Wang 等,2019)基准上进行了广泛的实验。在这里,我们介绍所有下游任务和数据集的详细描述如下:
CoLA 语言可接受性语料库(Warstadt 等,2019)是一个二元单句分类任务,用于确定给定句子在语言上是否“可接受”。
SST-2 斯坦福情感树库(Socher 等,2013)是一个二元分类任务,用于预测给定句子的情感。
MRPC 微软研究释义语料库(Dolan 和 Brockett,2005)是一个预测两个句子是否语义等价的任务。
STS-B 语义文本相似性(Cer 等,2017)是一个预测两个句子在语义上的相似性得分的任务,得分范围为 1-5。
QQP Quora 问题对数据集是一个来自社区问答网站 Quora 的问题对集合。任务是确定一对问题是否语义等价。
MNLI 多体裁自然语言推理语料库(Williams 等,2018)是一个预测前提是否蕴含假设、与假设矛盾或中立的任务,给定一个前提句子和一个假设句子。
QNLI 问题自然语言推理是一个二元分类任务,构建自 SQuAD(Rajpurkar 等,2016),旨在预测上下文句子是否包含问题句子的答案。
RTE 识别文本蕴含(Giampiccolo 等,2007),给定一个前提和一个假设,是一个预测前提是否蕴含假设的任务。
A.2 输入示例
在这里,我们展示了 ChatGPT 使用的标准少样本提示、零样本 CoT 提示和手动少样本 CoT 提示的输入示例。表 7 至表 14 显示了 GLUE 基准每个任务的详细示例。
本文标签: Comparative understand ChatGpt Study BERT
版权声明:本文标题:Can ChatGPT Understand Too?A Comparative Study on ChatGPT and Fine-tuned BERT——ChatGPT与微调BERT的对比研究 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1766144315a3441394.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论