admin 管理员组

文章数量: 1184232

论文标题:LARGE LANGUAGE MODELS FOR TEXT CLASSIFICATION: CASE STUDY AND COMPREHENSIVE REVIEW

论文地址:https://arxiv/pdf/2501.08457

[注] 日常工作中出现文本分类的需求比较多,我经常会被“这个简单的分类问题我应该用LLM还是Bert”这种问题困扰。当然,从开发效率和效果上来考虑,身边99%的场景都会选择用LLM。但是个人觉得采用LLM来做分类问题大炮轰蚊子不说,且训练时不够聚焦在下游任务(指文本分类),总觉得效果还可以更上一层楼。这篇论文主要探究了不同的语言模型在传统分类任务上的性能,希望能给到大家帮助。

Abstract

利用LLM来处理文本分类问题,是NLP领域一个充满前景的方向。

本篇论文对比了不同语言模型与机器学习模型在两种不同分类场景下的表现:

1)根据在线发布的工作评价对员工的工作地点进行分类(多分类);
2)对新闻文章进行真假分类(二分类)。

对比模型涵盖了一系列在规模、量化方式和架构上有所不同的语言模型。主要比较F1值、推理响应时间。

论文表明,基于提示策略的不同,模型的响应存在显著差异。大语言模型,尤其是Llama3和GPT-4,在复杂的分类任务(如多分类)中能够超越传统方法,但是推理时间更长。简单的机器学习模型在较简单的二分类任务中,性能与时间的权衡表现更佳。

[注] 多分类指的是标签集有多个,并不是多标签分类。

引言、相关工作、背景主要回顾了一下Decoder、Encoder、Encoder-Decoder架构和Prompt Engineering(包括Zero-Shot、Few-Shot、CoT、角色扮演等),比较基础,可以直接跳过。

Experimental Setup

实验设置

模型: GPT4 Turbo通过API访问,Mistral、Llama3 70B、Llama3 8B、Gemma在LPU上运行。五个开源AWQ量化模型(Llama2、Xwin、Mistral-OO、Mistral-OH、Zephyr)是从HuggingFace 下载的,在T4上加载,RoBERTa 和机器学习算法也是在T4上加载训练的。

超参数: 模型温度设为0。

模型训练: RoBERTa 和机器学习算法分别用的transformers库和sklearn库,5折交叉验证。

大模型: 开源LLM用vLLM部署,闭源模型调用API。

[注] 其实这样比模型的响应时间受硬件的影响并不公平,且没有对比的参考价值,个人觉得还是看看F1就得了。

数据集

数据集一共两个。

一个是FakeNewsNet,二分类,需要判断新闻是真实或者是虚假。

另一个是Employee Reviews,多分类(其实只有3个),该数据集包含1000条员工对公司的评价,需将评价分为三类:“远程工作”“非远程工作”或“未提及”。

Result Analysis

[注] 实验效果就是一团浆糊。有的模型加了CoT甚至还没有Zero Shot效果好。闭源的GPT加了Few Shot或者CoT效果会好些。

[注] 综上所述,这论文写得怎么比国内的硕士论文还水。

本文标签: 论文 Language Models text Large