admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:else if编程中啥意思)

482021,57(10)

ComputerEngineeringandApplications计算机工程与应用

多标签文本分类研究进展

郝超,裘杭萍,孙毅,张超然

陆军工程大学指挥控制工程学院,南京210007

摘要:文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文

本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本

概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方

法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法

自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为

基于CNN结构、基于RNN结构和基于Transformer结构的多标签文本分类方法。对多标签文本分类常用的数据集

进行了梳理总结。对未来的发展趋势进行了分析与展望。

关键词:自然语言处理;多标签文本分类;深度学习

文献标志码:A中图分类号:TP391doi:10.3778/.1002-8331.2101-0096

ResearchProgressofMulti-labelTextClassification

HAOChao,QIUHangping,SUNYi,ZHANGChaoran

Command&ControlEngineeringCollege,ArmyEngineeringUniversityofPLA,Nanjing210007,China

Abstract:Asabasictaskinnaturallanguageprocessing,single-

labeltextclassificationalgorithmhasmatured,butthereisstillalotofimprovementonmulti-labeltextclassification.

Firstly,thebasicconceptsandbasicprocessesofmulti-labeltextclassificationareintroduced,includingdatasetacquisi-

tion,textpreprocessing,ly,themethodsofmulti-labeltextclassificationare

ethodsaremainlydividedintotwocategories:traditionalmachinelearningmethodsandthemethods

ionalmachinelearningmethodsmainlyincludeproblemtransformationmethodsandalgo-

hodsbasedondeeplearningusevariousneuralnetworkmodelstohandlemulti-label

ingtothemodelstructure,theyaredividedintomulti-labeltextclassificationmethods

basedonCNNstructure,asetscommonlyusedinmulti-labeltextclassi-

y,thefuturedevelopmenttrendissummarizedandanalyzed.

Keywords:naturallanguageprocessing;multi-labeltextclassification;deeplearning

文本作为信息的一种重要载体,通过各种社交APP、

各大新闻门户网站等多种方式流入互联网。这些文本

信息在主题上多种多样,在规模上也表现出很大的差

异,如何对这些文本信息进行高效处理是一个具有重大

研究意义的问题,推动了自动文本分类技术的快速发展。

文本分类是自然语言处理(NaturalLanguagePro-

cessing,NLP)中重要且经典的问题

[1]

。在传统的文本分

类问题中,每个样本只有一个类别标签,并且各个类别

标签之间相互独立,分类粒度比较粗略,称为单标签文

基金项目:国家部委科技创新特区计划项目。

本分类。随着文本信息日益丰富,分类粒度细化程度越

来越高,一个样本与多个类别的标签相关,同时类别标

签之间存在一定的依赖关系,称为多标签文本分类

[2]

比如一篇新闻可能被同时认为是与“体育”和“教育”相

关的新闻。

多标签文本分类问题是多标签分类的重要分支之

一,目前已经广泛应用于标签推荐

[3]

、信息检索

[4]

和情感

分析

[5]

等领域。本文将多标签文本分类方法分为两大

类:传统机器学习方法和基于深度学习的方法。传统机

作者简介:郝超(1996—),男,硕士研究生,研究领域为自然语言处理、多标签文本分类,E-mail:*****************;裘杭萍(1965—),

女,博士,教授,CCF会员,研究领域为系统工程;孙毅(1993—),男,博士研究生,研究领域为信息检索、自然语言处理;

张超然(1994—),男,硕士研究生,研究领域为深度学习、机器阅读理解。

收稿日期:2021-01-06修回日期:2021-03-09文章编号:1002-8331(2021)10-0048-09

郝超,等:多标签文本分类研究进展

器学习方法包括问题转换方法和算法自适应方法。基

于深度学习的方法是利用各种神经网络模型来处理多

标签文本分类问题,根据网络的结构将其分为基于卷积

神经网络(ConvolutionalNeuralNetwork,CNN)结构、

基于循环神经网络(RecurrentNeuralNetwork,RNN)

结构和基于Transformer结构的多标签文本分类方法。

对该领域常用的数据集进行了梳理总结,最后对未来的

发展趋势进行了分析与展望,可以为该领域研究提供一

定的参考。

1多标签文本分类

1.1基本概念

多标签文本分类的主要任务是:将一个待分类的文

本通过特定的分类器对该文本给定多个标签。可以用

特定的数学符号来表示该任务,假定

D={(x

i

,y

i

)|1≤

i≤m}

是训练集中的样本,利用设计的模型学习到一个

映射

f:X→Y

,其中

x

i

∈X

是一个实例,

y

i

∈Y

是实例

x

i

所对应的类别标签。该映射如图1所示。

y

1

y

2

x

y

1

3

分类器

x

i

y

j

x

m

y

q

X

Y

图1多标签文本分类概念

图1实例空间

X

中包含

m

个实例,标签空间

Y

包含

q

个类别标签,通过数据集训练得到分类器模型。

测试过程中,每一个实例通过分类器模型得到相对应的

标签,标签是一个或者多个,获得标签的过程就叫作多

标签文本分类。

1.2多标签文本分类流程

多标签文本分类的具体流程包括数据集获取、文本

预处理、模型训练和预测结果,如图2所示。

数据集文本预处理文本表示

特征降维

输出类别

分类器

图2多标签文本分类流程

(1)数据集

首先要找到需要的数据集。数据集一般分为训练

集、测试集和验证集,文中第三部分列举了多标签文本

分类领域常用的数据集。

2021,57(10)

49

(2)文本预处理

文本预处理是自然语言处理任务的重要环节,将文

本转换为结构化的数据形式,以便计算机处理。文本预

处理一般有固定的流程,包括分词、词干提取、词性还

原等。

(3)文本表示

文本的信息是非结构化的,计算机无法直接处理这

种非结构化的信息,因此在完成了预处理之后的文本要

进行向量化表示:将输入的文本数据通过一定的方法转

换为计算机能够识别的数字数据,良好的文本表示形式

可以极大地提升算法效果。文本向量化主要分为两类

方法:第一类是离散表示,主要方法有One-hot编码、词

袋(BagofWords,BOW)模型等;第二类方法是分布式

表示,主要方法包括共现矩阵、Word2Vec

[6]

、Glove

[7]

等。

Word2Vec和Glove是第一代预训练模型(Pre-trained

Models,PTM),通常采用浅层模型来学习词嵌入;新一

代PTM专注于学习上下文的词嵌入,如ELMo

[8]

、OpenAI、

GPT

[9]

和BERT

[10]

,学习更合理的词表征,包括了上下文

信息

[11]

(4)特征降维

特征降维也称特征提取。通过文本向量化处理后

得到的特征比较稀疏,维度较高。特征提取就是在保证

文本语义表达完整的前提下,去除无用特征,保留有效

特征,进行特征降维。常用的特征选择方式有词频-

逆向文件频率

[12]

(TermFrequency-InverseDocument

Frequency,TF-IDF)、卡方检验、深度神经网络等。在预

训练模型提出之后,大多数预训练模型采取Transformer

结构作为特征提取模块。

(5)分类器和输出类别

将预处理之后的文本(训练集)送入特定的分类器

模型)中进行训练,得到分类器模型。通过验证集和测

试集输出类别的预测,利用F1值等相关指标来评判模

型的优劣。

2多标签文本分类方法

近年来,多标签文本分类得到了快速的发展,涌现

出大量多标签文本分类方法,这些方法可以分为两大

类:传统机器学习方法和基于深度学习方法。具体分类

如图3所示。

问题转换方法

传统机器学习方法

多标签文本

算法自适应方法

分类方法

基于CNN结构

基于深度学习方法

基于RNN结构

基于Transformer结构

图3多标签文本分类方法分类

502021,57(10)

ComputerEngineeringandApplications计算机工程与应用

2.1传统机器学习方法

传统机器学习方法根据解决策略角度,可以分为问

题转换方法和算法自适应方法

[13]

2.1.1问题转换方法

问题转换方法是最简单的方法,将多标签文本分类

任务转换为其他已经成熟的方案,比如将多标签文本分

类问题转换为多个二分类问题。Boutell等人

[14]

提出的

二元相关(BinaryRelevance,BR)方法就是典型的问题

转换方法,它直接忽略标签之间的相关性,并为每个标

签建立一个单独的分类器,以此来达到多标签文本分类

的效果,但该模型的性能较低。为了捕获标签之间的依

赖问题,Tsoumakas等人

[15]

提出标签幂集分解(Label

Powerset,LP)方法,该方法通过为每个标签组合使用唯

一的二进制分类器,将任务转变为标签组合的多分类问

题。Read等人

[16]

对BR方法进行改进,提出了分类器链

ClassifierChain,CC)方法,将任务转换为二进制分类

问题链,其中后续的二进制分类器基于先前的预测,如

果前面的标签预测错误就会对后面的标签产生影响。

Tsoumakas等人

[17]

提出了名为Random

k

-labelsets的算

法,主要是将多标签学习任务转换为多类分类任务。

2.1.2算法自适应方法

算法自适应方法通过采用合适的算法来直接处理

多标签数据以解决多标签学习问题。代表性的算法

包括Clare等人

[18]

提出的ML-DT(Multi-LabelDecision

Tree)方法,它通过构造决策树来执行分类。Elisseeff等

[19]

提出排名支持向量机(RankingSupportVector

Machine,Rank-SVM),采用类似于学习系统的支持向量

机(SupportVectorMachine,SVM)来处理多标签问题,

其中优化了一组线性分类器来最小化经验ranking

loss,并且能够用核技巧处理非线性情况。Zhang等人

[20]

提出了一个多标签

K

最近邻(Multi-Label

K

-Nearest-

Neighbor,ML-

KNN)

方法,该方法是基于

KNN

算法改

进的,通过

K

近邻来处理多标签数据,其中最大后验

MaximumaPosteriori,MAP)规则用于通过推理包含

在邻居中的标签信息来进行预测。

综上所述,问题转换方法的关键是使数据适合算

法,而算法自适应方法的关键是使算法适应数据。

2.2基于深度学习方法

由于深度学习的快速发展,深度学习模型在计算机

视觉(ComputerVision,CV)和语音识别(SpeechRec-

ognition,SR)领域取得了很好的效果。在自然语言处理

领域中,许多深度学习方法也得到了广泛的应用。深度

学习在文本分类中取得了很好的效果,比较有代表性的

有Kim

[21]

提出的TextCNN模型。该方法首次将CNN结

构用于文本分类,利用CNN来进行句子级别的分类,基

于Word2Vec进行了一系列实验,但是该模型无法避免

使用CNN中固定窗口的缺点,因此无法建模更长的序

列信息。Lai等人

[22]

提出了TextRCNN模型,该方法主要

针对传统分类方法存在忽略上下文的问题以及针对

CNN卷积窗口设置的问题,结合RNN和CNN的优点提

出了RCNN模型。当时的网络都是针对单一任务进行

训练,缺少标注数据,因此Liu等人

[23]

提出了TextRNN模

型,将多个任务联合起来训练,以此来对网络进行改善。

Yang等人

[24]

将Attention机制加入到TextRNN中,提出

一个分层注意力网络模型HAN,采用“词-句子-文章”

的层次化结构来表示一篇文本,具有很好的可解释

性。随着Transformer和BERT的提出,Sun等人

[25]

BERT应用到文本分类中,介绍了一些调参以及改进的

方法,进一步挖掘BERT在文本分类中的应用。

在多标签文本分类领域,深度神经网络也得到了广

泛的应用,并且取得了不错的效果。Zhang等人

[26]

早在

2006年就提出了名为BP-MLL的算法,这是首次将神经

网络应用到多标签文本分类上。该方法源于BP算法,

通过使用一种新的误差函数来捕获多标签学习的特征,

即属于一个实例的标签要比不属于该实例的标签排名

高。Nam等人

[27]

改进了BP-MLL算法,用交叉熵损失函

数代替rankingloss,并且使用了Dropout、AdaGrad和

ReLUs。上面的两种模型只是用了简单的神经网络,无

法说明文本信息的完整性并且不会保留单词顺序。针

对这些缺点,后面又陆续提出了大量的基于CNN、RNN

和Transformer的多标签文本分类模型。

下面按照网络结构的不同,将基于深度学习的多标

签文本分类算法分为三大类,包括基于CNN、基于RNN

和基于Transformer的多标签文本分类。

2.2.1基于CNN的多标签文本分类

CNN首先是应用在图像领域,特别是在计算机视

觉领域取得了不错的效果,比如图像分类、目标检测和

图像分割等。在CNN

[28]

中,主要包括卷积层、池化层和

全连接层。用来处理文本分类任务的典型CNN结构如

图4所示,其在图像领域取得了巨大成功。在TextCNN

模型提出后,越来越多的基于CNN的分类模型被提出。

W

1

W

2

W

3

W

4

W

5

W

6

W

7

n×k

的词向量矩阵卷积池化全连接输出标签

图4CNN结构

Berger

[29]

提出了一种分别将TextCNN和门控循环单

元(GateRecurrentUnit,GRU)与Word2Vec词向量使

用的方法来解决大规模多标签文本分类问题,通过保留

单词顺序和使用语义词向量来保留较大语义的词汇,最

后根据一个阈值

α

来确定样本是否属于某个类别。Baker

等人

[30]

设计了一种基于CNN结构的标签共现的多标签

文本分类方法,该方法主要是通过初始化神经网络模型

郝超,等:多标签文本分类研究进展

的最终隐藏层来利用标签共现关系。Kurata等人

[31]

出了一种利用标签共现来改进基于CNN结构的多标签

分类方法,主要的改进在于提出了一种新的网络初始化

方法来利用标签共现信息。Liu等人

[32]

基于TextCNN结

构进行了改进,提出了XML-CNN模型,该模型不同于

TextCNN的方面在于池化操作时使用了动态池化,改进

了损失函数,采用了二元交叉熵损失函数,并在池化层

和输出层之间加了一个隐藏层,能够将高维标签映射到

低维,以此来减少计算量。Shimura等人

[33]

提出了一种

针对短文本多标签文本的分层卷积神经网络结构HFT-

CNN,该方法的主要思想是利用预训练加微调的思想,

并且利用类别之间的层次关系解决短文本数据稀疏问

题。Yang等人

[34]

提出了一种针对数据不平衡的多标签

文本分类的孪生CNN网络HSCNN,主要用孪生网络的

结构来处理少样本的问题,利用混合机制来解决极端不

平衡多标签文本分类问题,针对头标签采用单一的网络

结构,针对尾标签采用少样本孪生网络方法。

基于CNN的多标签文本分类方法都是对CNN结

构改进,以此来适应多标签文本分类。虽然这种方法比

较简单,并且也不需要花费巨大的计算代价,但是利用

CNN的池化操作时,会造成语义信息的丢失,并且当文

本过长时,CNN不利于捕获前后文的关系而造成语义

的偏差。

2.2.2基于RNN的多标签文本分类

CNN无法处理以序列形式出现的输入,然而在自

然语言处理中,大多数输入都是序列数据,比如一个句

子就是一个序列数据。为了处理这些序列输入的要求,

RNN也得到了快速的发展,在文本分类领域也得到了

广泛的应用。RNN类似于所有的深层架构,网络越深,

梯度消失和梯度爆炸问题也就越明显,无法掌握长时间

跨度非线性关系,因此在采用RNN的时候往往会采用

改进的RNN结构,包括长短时记忆网络(LongShort-

TermMemory,LSTM)

[35]

和GRU

[36]

来解决长期依赖问

题。这些深度神经网络处理的都是定长序列的问题,

即输入和输出的大小是固定不变的。为了解决这个问

题,Sutskever等人

[37]

提出了序列到序列(Sequenceto

Sequence,Seq2Seq)的结构,其网络结构如图5所示。采

用了两个RNN组合的方式构成网络,主要思想是用多

层的LSTM来进行编码,然后用另一个深层的LSTM来

解码。Seq2Seq模型的提出首先是为了解决机器翻译的

问题,后面也迁移到了各个自然语言处理任务中,包括

多标签文本分类。

InputEncoderDecoderOutput

图5Seq2Seq结构

2021,57(10)

51

Nam等人

[38]

利用RNN来代替分类器链,并使用基

于RNN的Seq2Seq去建模,这种方法借助RNN依次产

生标签序列来捕获标签之间的相关性。这是首次将

Seq2Seq模型应用在多标签文本分类上,在这之后,有更

多的Seq2Seq模型被提出并用于处理多标签文本分类。

Chen等人

[39]

提出CNN-RNN模型,该模型将CNN和

RNN进行融合,先将词向量送入到CNN中得到文本特

征序列,然后将该特征输入到RNN中得到相应的预测

标签。但是该模型受训练集大小影响较大,如果训练集

过小,可能会产生过拟合。Yang等人

[40]

提出了引入注意

力机制的SGM模型,也是一种Seq2Seq结构的模型,该

模型将多标签分类任务视为序列生成问题,以此来考虑

标签之间的相关性,也是首次将序列生成的思想应用到

多标签文本分类中。编码部分采用Bi-LSTM来获取单

词的序列信息,并且提出了一种具有注意力(Attention)

机制的解码器结构的序列生成模型,该解码器在预测的

时候能够自动选择最有信息量的单词。该模型利用生

成的思想考虑标签之间的相关性,这会带来误差的累

积。针对这一缺点,Yang等人

[41]

针对SGM模型进行了

改进,主要是在SGM的基础上加了一个SetDecoder,

利用Set的无序性,降低错误标签带来的影响。Qin等

[42]

沿用了序列生成的思想,提出了自适应的RNN序

列模型,提供一个新的训练目标,以便RNN模型能够发

现最佳标签顺序。

注意力机制首先在图像领域取得成功之后,在多标

签文本分类领域,也有越来越多的模型引入了Attention

机制。Lin等人

[43]

提出多级扩展卷积,是通过在原始编

码器LSTM生成表示法的基础上,应用多层卷积神经网

络,通过捕获单词之间的局部相关性和长期依赖性来生

成语义单元表示,进而增强Seq2Seq的效果,并且将高

层的Attention和词级别的Attention做了整合,提出混合

注意力(HybridAttention)来兼顾各个级别表示的信

息。该模型有来自LSTM编码器的注释和来自MDC的

语义单元表示,解码器部分首先关注的是来自MDC的

语义单元表示,然后关注的是LSTM编码器的源注释。

You等人

[44]

提出了基于标签树的Attention-XML模型,

该模型使用Bi-LSTM来捕获单词之间的长距离依赖关

系,以及使用多标签注意来捕获文本中与每个标签最相

关的部分,针对长尾标签,提出了概率标签树(Probability

LabelTree,PLT),能够高效处理上百万级别的标签。

Yang等人

[45]

基于“并行编码,串行解码”策略,提出一种

新的序列到序列模型,该模型将CNN和并行自注意力

机制结合作为编码器,从源文本中提取局部邻域信息和

全局交互信息,设计了一个分层解码器来解码并生成标

签序列。

基于RNN的多标签文本分类方法大多都是采用

Seq2Seq结构来实现,利用序列生成来考虑标签间的关

系,后一个标签往往是依赖于前一个标签的,因此错误

标签带来的影响往往就会叠加,虽然有一些方法提出了

522021,57(10)

ComputerEngineeringandApplications计算机工程与应用

改进,但还是存在着缺陷。并且利用这种方法虽然提升

了结果,但是能否很好地学习到标签之间的相关性还有

待商榷。

2.2.3基于Transformer的多标签文本分类

Google提出了经典的网络结构Transformer

[46]

,具

体结构如图6。该结构只采用了Attention机制,不像

传统的编码-解码的模型需要结合RNN或者CNN来使

用。Transformer的提出给自然语言处理领域带来了

极大的影响,之后的预训练模型GPT-2和BERT都是基

于Transformer结构提出的,预训练模型的提出在各项

自然语言处理任务都取得了很好的效果。BERT的提出

可以说是自然语言处理领域的里程碑,其证明了一个非

常深的模型可以显著提高自然语言处理任务的准确率,

而这个模型可以从无标记数据集中预训练得到。

OutputProbabilities

Softmax

Linear

Add&Norm

FeedForward

Add&Norm

Add&Norm

Multi-head

Attention

Nx

FeedForward

Nx

Add&Norm

Add&Norm

Multi-head

Masked

Attention

Multi-head

Attention

Positional

Encoding

+

+

Positional

Encoding

Input

Input

Embedding

Embedding

图6Transformer结构

在多标签分类领域,也有很多采用Transformer的模

型被提出。Yarullin等人

[47]

首次尝试BERT并探索其在

多标签设置和分层文本分类中的应用,提出应用在多标

签文本分类领域的序列生成BERT模型。Chang等人

[48]

提出X-Transformer模型,该模型是由三部分组成,包括

语义标签序列组件、深度神经匹配组件和整体排名组

件。语义标签序列组件通过标签聚类将棘手的极端多

标签文本分类(ExtremeMulti-labelTextClassification,

XMC)问题分解为一组输出空间较小的可行子问题,从

而减轻标签稀疏性问题;深度神经匹配组件针对语义标

签序列引起的每个XMC子问题微调Transformer模型,

从而使得输入文本到标签簇集有更好的映射;最后,对

整体排名组件进行有条件的训练,包括实例-群集分配

和来自Transformer的神经嵌入,并用于组合从各种语

义标签序列引起的子问题中得出的分数,以进一步提高

性能。Gong等人

[49]

提出HG-Transformer的深度学习模

型,该模型首先将文本建模为一个图形结构,然后在单

词、句子和图形级别使用具有多头注意机制的多层

Transformer结构以充分捕获文本的特征,最后利用标签

的层次关系来生成标签的表示形式,并基于标签的语义

距离设计加权损失函数。

基于Transformer结构的多标签文本分类模型的效

果往往会优于基于CNN和基于RNN结构的模型,但是

基于Transformer结构的模型比起前两种结构来说,参

数量往往是巨大的,并且网络结构比较复杂,在实际场

景中难以应用。

传统机器学习方法包括问题转换方法和算法自适

应方法,虽然相对基于深度学习方法来说比较简单,但

是在预测效果上往往不能达到很好的效果。除此之外,

传统的机器学习在特征提取的时候往往需要人工提取,

这会加大人工的花费,并且人工提取的特征并不能得到

保障,因此在此过程中会出现很多差错,也会直接影响

算法和模型的效果。随着深度学习在自然语言处理领

域广泛应用,在单标签文本分类中已经取得不错的效

果,目前也已经应用在多标签文本分类中,表1列举了

部分基于深度学习的方法。深度学习的方法可以自动

提取特征,大大减少了花费,使得算法的鲁棒性更强,不

过对于设备和硬件要求以及设备计算能力要求也大大

提升,并且在数据规模上要求更大;深度学习在可解释

性上不如机器学习,它能够给出一个结果,但是中间的

过程相当于一个黑盒子;深度学习的算法虽然大大提高

了多标签文本分类的效果,但还是有很大的提高空间。

3数据集

多标签文本分类虽然已经取得了快速的发展,但是

在这方面的公开数据集并不是很多。本文收集了一些

多在标签文本分类领域中常用的数据集,根据标签数量

的多少可以将其分为小型数据集(标签数0~10000)、中

型数据集(标签数10000~100000)和大型数据集(标签

数超过100000)。本文从标签数、文本的数量等方面进

行了统计,具体信息如表2所示。

对数据集的详细说明如下:

(1)Ren-CECps1.0

[50]

:该数据集是由Quan等人提供

的,是一个多标签的中文情感语料库,它包含了37678

个中文博客的句子和11种情感标签,其中每句话被赋

予一种或多种情感。

(2)Reuters-21578(https:///ml/data-

sets/Reuters-21578+Text+Categorization+Collection):该

数据集是由路透社的新闻组成的,是路透社金融新闻服

郝超,等:多标签文本分类研究进展

表1

模型文献

[21]

[27]

[32]

[34]

[39]

[40]

[43]

[47]

[48]

[49]

2021,57(10)

模型简介

模型结构

CNN

简单神经网络

CNN

CNN

孪生网络

Seq2Seq

Seq2Seq

Attention

Seq2Seq

Attention

Transformer

Transformer

Transformer

53

TextCNN

改进BP-MLL

XML-CNN

HSCNN

CNN-RNN

SGM

MDC

BERT+SGM

X-Transformer

HG-Transformer

简单介绍

利用基本CNN结构来进行分类,该模型将词向量组成的句子矩阵作为CNN的输入,利用

CNN卷积器来提取特征

针对BP-MLL算法的不足,提出了改进,用交叉熵损失函数代替了rankingloss

XML-CNN模型是基于TextCNN结构改进的,该模型不同于TextCNN的方面在于池化操作

时使用了动态池化,改进了损失函数,采用了二元交叉熵损失函数

主要用孪生网络的结构来处理少样本的问题,利用了混合机制来解决极端不平衡多标签文

本分类问题,针对头标签采用单一的网络结构,针对尾标签采用少样本孪生网络方法

该模型将CNN和RNN进行融合,先将词向量送入到CNN中得到文本特征序列,然后将该

特征输入到RNN中得到相应的预测标签

把多标签分类问题变为一个序列生成问题,提出一种新的解码器用于序列生成模型

基于LSTM的Seq2Seq,使用附加的多级展开卷积组件提取高级语义信息,并使用相应的混

合注意力

提出了序列生成BERT模型(BERT+SGM)和一个混合模型,是vanillaBERT和BERT+

SGM模型的集合

该模型包含了三部分,包括语义标签序列组件(SLI)、深度神经匹配组件和整体排名组件

该模型将文本建模为一个图像结构,在单词、句子和图形级别引入了具有多头注意机制的

多层Transformer结构来捕获特征,利用标签的层次关系来生成标签的表示形式

年份

2014

2014

2017

2020

2017

2018

2018

2019

2020

2020

表2

数据集

Ren-CECps1.0

Reuters-21578

AAPD

RCV1-V2

EUR-Lex

AmazonCat-13K

Amazon-670K

Amazon-3M

数据集相关信息

标签数

11

90

54

103

3956

13330

670091

2812281

样本平均

单词数

24.71

163.42

123.94

1239.49

448.57

244.27

104.13

样本平均

标签数

2.36

2.41

3.24

5.30

5.04

5.45

36.04

样本总数

37687

10788

55840

804414

19314

1493021

643474

2460406

逊商品的评论、产品的数据,和AmazonCat-13K的数据

有类似之处,只是规模和商品不一样。

(8)Amazon-3M

[53]

:该数据集的数据也来源于亚马

逊,包含的是产品的信息、链接以及产品的评论。

由上面的分析可知,在公开的多标签文本分类数据

集中,中文的数据集很少,以上的8个数据集中只有

Ren-CECps1.0数据集是中文,其他的都是英文。大部分

都是来自于亚马逊网站,都是商品的评论,因此适合用

来做短文本分类。

务进行分类的常用数据集,它包含了7769个训练文本

和3019个测试文本,包含多个标签和单个标签。

(3)AAPD

[40]

:该数据集是由Yang等人提供的,是从

网络上收集了55840篇论文的摘要和相应学科类别,一

篇学术论文属于一个或者多个学科,总共由54个学科组

成,目的是根据给定的摘要来预测学术论文相对应的学科。

(4)RCV1-V2

[51]

:该数据集是由Lewis等人提供的,

是由路透社新闻专栏报道组成,共有804414篇新闻,每

篇新闻故事分配有多个主题,共有103个主题。

(5)EUR-Lex

[52]

:该数据集是由Mencía等人提供的,

是由欧盟法律组成的,里面包含了许多不同类型的文

件,包括条约、立法、判例法和立法提案,共有19314个

文档,3956个分类。

(6)AmazonCat-13K:该数据集来自于亚马逊,其

中包括评论(评分、文字、帮助性投票),产品元数据(描

述、类别信息、价格、品牌和图像特征)和链接(可以查

看/购买的图表),在做多标签文本分类时主要考虑的是

类别信息。

(7)Amazon-670K

[53]

:该数据集数据的来源是亚马

[53]

4多标签文本分类性能评价

4.1评价指标

在多标签文本分类中,常用的评价指标通常包括汉

明损失(HammingLoss,HL)、Micro-F1值。

(1)汉明损失

Schapire等人

[54]

在1999年就提出了汉明损失,简单

来说就是衡量被错分的标签的比例大小,正确的标签没

有被预测正确以及错误标签被预测的标签占比,就是两

个标签集合的差别占比,汉明损失的值越小,预测结果

就越好。计算公式如下:

XOR(x

i

,y

i

)

HL=

1

|

D

|

i=1

|

L

|

|

D

|

(1)

|

D

|

是样本的数量,

|

L

|

是标签的总数,

x

i

表示标其中,

签,

y

i

表示真实标签,XOR是异或运算。

(2)Micro-precision、Micro-recall和Micro-F1

对单标签文本分类而言,精准率(Precision)是针对

预测结果而言的,表示预测为正的样本中有多少是真正

的样本,一种是把正类预测为正类(TP),另一种就是把

负类预测为正类(FP),它反映了模型的查准率。召回率

(Recall)是针对样本来说,表示样本中的正样本有多少

542021,57(10)

ComputerEngineeringandApplications计算机工程与应用

被预测正确了,一种是把原来的正样本预测为正类

(TP),另一种就是把原来的正样本预测为负类(FN),它

反映了模型的查全率。具体可以见表3。

表3评价指标F1值

混淆矩阵

预测值

PositiveNegative

实际值

PositiveTPFN

NegativeFPTN

多标签文本分类将文本赋予多个标签,标签数量也

不是固定的,通常使用Micro-precision和Micro-recall,

考虑所有标签的整体精确率和召回率,在理想情况下是

两者都越高越好,但实际情况往往会产生矛盾,因此在

多标签文本分类领域,采用Micro-F1来评价。Micro-F1

是Micro-precision和Micro-recall的调和平均,其计算公

[55]

如下所示(其中

L

代表类别标签总数):

L

TP

Micro-precision=

j=1

j

L

(2)

(TP

j=1

j

+FP

j

)

L

TP

j=1

j

Micro-recall=

L

(3)

(TP

j

+FN

j

)

j=1

L

2TP

Micro-F1=

j=1

j

L

(4)

(2TP

1

j

+FP

j=

j

+FN

j

)

4.2结果分析

早期的多标签文本分类方法原理是基于传统机器

学习方法来实现的,实现过程相对来说是比较简单的,

但是效果还是不够理想。深度学习的发展,也大大促进

了多标签文本分类的发展。表4对相关多标签文本分

类模型在AAPD、RCV1-V2、EUR-Lex等数据集上的结

果进行了总结。

表4模型结果对比

模型文献数据集

Micro-F1

年份

RCV1-V20.829

TextCNN[21]AAPD0.6742014

Ren-CECps1.00.565

HAN[24]AAPD0.7082016

改进BP-MLL

[27]

RCV1-V20.784

EUR-Lex0.575

2014

SGM[40]

RCV1-V20.815

AAPD0.710

2018

MDC[43]

RCV1-V20.882

Ren-CECps1.00.590

2018

BERT+SGM[47]

RCV1-V20.846

AAPD0.718

2019

模型在AAPD、RCV1-V2、EUR-Lex等数据集上的

结果显示,Micro-F1值逐渐提升,在RCV1-V2数据集上

Micro-F1值从0.784提升到0.893,在AAPD数据集上

Micro-F1值从0.674提升到0.725,提升效果明显。但还

有很大的上升空间,特别是在预训练模型提出后,在各

项任务上都取得了不错的效果,比如BERT的提出在11

项NLP任务中都取得了很好的效果。

5总结与展望

文本分类作为有效的信息检索和挖掘技术在关于

文本管理方面发挥着重大的作用。虽然在单标签文本

分类领域已经取得了不错的效果,但还是无法使模型像

人一样从语义层面理解文本信息。多标签文本分类相

较于单标签文本分类来说更加复杂,还存在着很多的挑

战,主要体现在以下几点:

(1)特定领域的数据集缺失问题。目前公开的多标

签文本分类领域的数据集,大部分是针对新闻领域的,

对于特定领域的数据集非常匮乏,比如医疗领域、金融

领域和法律领域。因此,需要构建特定领域的多标签文

本分类数据集。

(2)极端多标签文本分类问题。极端多标签文本分

[48]

目的是学习一个分类器,该分类器能够从大量标签

中自动选择最相关的标签来对数据进行归类

[56]

。极端

多标签文本分类的难点在于标签集的数目非常多,包含

数十万、甚至成百上千万的标签。目前多标签文本分类

模型的内存占用、模型大小都随着标签空间的变大而线

性变大,在面对极端多的标签时,无法成功部署甚至训

练。因此,如何设计出一个高效的模型来解决极端多标

签文本分类问题是未来亟待解决的一个难点。

(3)标签间的相关性研究问题。多标签文本分类的

标签之间是存在内在联系的,比如属于“人工智能”的文

本往往跟“深度学习”是相关联的。传统的一些方法在

处理多标签文本分类问题上,往往没有考虑标签之间的

相关性,这也严重影响了模型的效率。后面虽然提出了

一些方法来研究标签之间的相关性,比如Baker等人

[30]

出了一种分层的多标签文本分类方法来得到标签间的

共现关系,但只是考虑了标签之间浅层次的关系,忽略

了标签之间深层次的关系。因此,如何高效捕捉标签间

的关系也是多标签文本分类任务未来的一大研究重点。

(4)数据集标签长尾问题。对于多标签文本分类领

域存在的数据集,都是由文本集和标签集构成的,对于

标签集来说就会有分布不均衡的问题存在,部分标签与

很多文本样本相关联,而还有的一些标签就非常少,甚

至说没有与文本样本相关联,可以理解为标签“长尾”的

问题

[57]

。用不平衡的数据训练出来的模型会导致样本

少的种类预测性能很差,甚至无法预测。因此,如何解

决标签长尾问题也是多标签文本分类领域一个重要的

研究问题。

郝超,等:多标签文本分类研究进展

参考文献:

[1]ALIT,-labelscientificdocumentclas-

sification[J].JournalofInternetTechnology,2018,19(6):

1707-1716.

[2]刘心惠.基于改进seq2seq模型的多标签文本分类研究[D].

辽宁大连:大连海事大学,2020.

[3]FÜRNKRANZJ,HÜLLERMEIERE,MENCÍAEL,etal.

Multilabelclassificationviacalibratedlabelranking[J].

MachineLearning,2008,73(2):133-153.

[4]GOPALS,abelclassificationwithmeta-

levelfeatures[C]//33rdInternationalACMSIGIRConfer-

enceonResearchandDevelopmentinInformationRetrieval,

2010:315-322.

[5]CAMBRIAE,OLSHERD,Net3:

acommonandcommon-senseknowledgebaseforcognition-

drivensentimentanalysis[C]//28thAAAIConferenceon

ArtificialIntelligence,2014:1515-1521.

[6]MIKOLOVT,CHENK,CORRADOG,ent

estimationofwordrepresentationsinvectorspace[J].

arXiv:1301.3781,2013.

[7]PENNINGTONJ,SOCHERR,:

globalvectorsforwordrepresentation[C]//2014Confer-

enceonEmpiricalMethodsinNaturalLanguagePro-

cessing,2014:1532-1543.

[8]PETERSME,NEUMANNM,IYYERM,

contextualizedwordrepresentations[C]//2018Conference

oftheNorthAmericanChapteroftheAssociationfor

ComputationalLinguistics:HumanLanguageTechnologies,

2018:2227-2237.

[9]RADFORDA,NARASIMHANK,SALIMANST,etal.

Improvinglanguageunderstandingbygenerativepre-

training[EB/OL].(2018)[2020-11-30].https://s3-us-west-2.

/openaiassets/researchcovers/languageunsu-

pervised/.

[10]DEVLINJ,CHANGMW,LEEK,:pre-

trainingofdeepbidirectionaltransformersforlanguage

understanding[C]//2019ConferenceoftheNorthAmeri-

canChapteroftheAssociationforComputationalLin-

guistics:HumanLanguage,2019:4171-4186.

[11]QIUXP,SUNTX,XUYG,-trainedmodels

fornaturallanguageprocessing:asurvey[J].arXiv:2003.

08271,2020.

[12]GHOSHS,pecificTF-IDF

boostingforshort-textclassification:applicationtoshort-

textsgeneratedduringdisasters[C]//Companionofthe

theWebConference2018,Lyon,2018:1629-1637.

[13]ZHANGML,wonmulti-label

learningalgorithms[J].IEEETransactionsonKnowledge

andDataEngineering,2013,26(8):1819-1837.

[14]BOUTELLMR,LUOJ,SHENX,ngmulti-

2021,57(10)

55

labelsceneclassification[J].PatternRecognition,2004,37

(9):1757-1771.

[15]TSOUMAKASG,-labelclassification:

anoverview[J].InternationalJournalofDataWarehousing

andMining,2007,3(3):1-13.

[16]READJ,PFAHRINGERB,HOLMESG,fier

chainsformulti-labelclassification[J].MachineLearning,

2011,85(3):333.

[17]TSOUMAKASG,k-labelsets:

anensemblemethodformultilabelclassification[C]//Euro-

,Heidel-

berg:Springer,2007:406-417.

[18]CLAREA,dgediscoveryinmulti-

labelphenotypedata[C]//EuropeanConferenceonPrin-

-

lin,Heidelberg:Springer,2001:42-53.

[19]ELISSEEFFA,lmethodformulti-

labelledclassification[C]//AdvancesinNeuralInforma-

tionProcessingSystems,2002:681-687.

[20]ZHANGML,-KNN:alazylearning

approachtomulti-labellearning[J].PatternRecognition,

2007,40(7):2038-2048.

[21]utionalneuralnetworksforsentenceclas-

sification[J].arXiv:1408.5882,2014.

[22]LAIS,XUL,LIUK,entconvolutionalneu-

ralnetworksfortextclassification[C]//29thAAAICon-

ferenceonArtificialIntelligence,2015.

[23]LIUP,QIUX,entneuralnetworkfor

textclassificationwithmulti-tasklearning[J].arXiv:1605.

05101,2016.

[24]YANGZ,YANGD,DYERC,chicalatten-

tionnetworksfordocumentclassification[C]//2016Con-

ferenceoftheNorthAmericanChapteroftheAssocia-

tionforComputationalLinguistics:HumanLanguage

Technologies,2016:1480-1489.

[25]SUNC,QIUX,XUY,ine-tunebertfor

textclassification?[C]//ChinaNationalConferenceon

:Springer,2019:

194-206.

[26]ZHANGML,abelneuralnetworks

withapplicationstofunctionalgenomicsandtextcate-

gorization[J].IEEETransactionsonKnowledgeandData

Engineering,2006,18(10):1338-1351.

[27]NAMJ,KIMJ,MENCÍAEL,-scalemulti-

labeltextclassification—revisitingneuralnetworks[C]//

JointEuropeanConferenceonMachineLearningand

,Heidelberg:

Springer,2014:437-452.

[28]ZAGORUYKOS,ngtocom-

pareimagepatchesviaconvolutionalneuralnetworks[C]//

2015IEEEConferenceonComputerVisionandPattern

562021,57(10)

ComputerEngineeringandApplications计算机工程与应用

Recognition,2015:4353-4361.

[29]calemulti-labeltextclassification

withsemanticwordvectors[R].StanfordUniversity,2015.

[30]BAKERS,lizingneuralnet-

worksforhierarchicalmulti-labeltextclassification[C]//

BioNLP2017,AssociationforComputationalLinguis-

tics,2017:307-315.

[31]KURATAG,XIANGB,edneuralnetwork-

basedmulti-labelclassificationwithbetterinitialization

leveraginglabelco-occurrence[C]//2016Conferenceof

theNorthAmericanChapteroftheAssociationfor

ComputationalLinguistics:HumanLanguageTechnolo-

gies,2016:521-526.

[32]LIUJ,CHANGWC,WUY,arningfor

extrememulti-labeltextclassification[C]//40thInterna-

tionalACMSIGIRConferenceonResearchandDevel-

opmentinInformationRetrieval,2017:115-124.

[33]SHIMURAK,LIJ,-CNN:learning

hierarchicalcategorystructureformulti-labelshorttext

categorization[C]//2018ConferenceonEmpiricalMethods

inNaturalLanguageProcessing,2018:811-816.

[34]YANGW,LIJ,FUKUMOTOF,:aMono-

meric-Siameseconvolutionalneuralnetworkforextremely

imbalancedmulti-labeltextclassification[C]//2020Con-

ferenceonEmpiricalMethodsinNaturalLanguage

Processing,2020:6716-6722.

[35]HOCHREITERS,ort-term

memory[J].NeuralComputation,1997,9(8):1735-1780.

[36]CHUNGJ,GULCEHREC,CHOKH,cal

evaluationofgatedrecurrentneuralnetworksonsequence

modeling[J].arXiv:1412.3555,2014.

[37]SUTSKEVERI,VINYALSO,cetose-

quencelearningwithneuralnetworks[C]//Advancesin

NeuralInformationProcessingSystems,2014:3104-3112.

[38]NAMJ,MENCÍAEL,KIMHJ,zingsub-

setaccuracywithrecurrentneuralnetworksinmulti-label

classification[C]//AdvancesinNeuralInformationPro-

cessingSystems,2017:5413-5423.

[39]CHENG,YED,XINGZ,leapplicationof

convolutionalandrecurrentneuralnetworksformulti-

labeltextcategorization[C]//2017InternationalJointCon-

ferenceonNeuralNetworks,2017:2377-2383.

[40]YANGP,SUNX,LIW,:sequencegenera-

tionmodelformulti-labelclassification[J].arXiv:1806.

04822,2018.

[41]YANGP,MAS,ZHANGY,einforced

sequence-to-setmodelformulti-labeltextclassification[J].

arXiv:1809.03118,2018.

[42]QINK,LIC,PAVLUV,ngRNNsequence

predictionmodeltomulti-labelsetprediction[J].arXiv:

1904.05829,2019.

[43]LINJ,SUQ,YANGP,ic-unit-baseddilated

convolutionformulti-labeltextclassification[J].arXiv:

1808.08561,2018.

[44]YOUR,ZHANGZ,WANGZ,ionxml:labeltree-

basedattention-awaredeepmodelforhigh-performance

extrememulti-labeltextclassification[C]//Advancesin

NeuralInformationProcessingSystems,2019:5820-5830.

[45]YANGZ,chicalsequence-to-sequencemodel

formulti-labeltextclassification[J].IEEEAccess,2019,

7:153012-153020.

[46]VASWANIA,SHAZEERN,PARMARN,-

tionisallyouneed[C]//AdvancesinNeuralInforma-

tionProcessingSystems,2017:5998-6008.

[47]YARULLINR,rsequence-to-

sequencemulti-labeltextclassification[J].2019.

[48]CHANGWC,YUHF,ZHONGK,pre-

trainedtransformersforextrememulti-labeltextclassi-

fication[C]//26thACMSIGKDDInternationalConfer-

enceonKnowledgeDiscoveryandDataMining,2020:

3163-3171.

[49]GONGJ,TENGZ,TENGQ,chicalgraph

transformer-baseddeeplearningmodelforlarge-scale

multi-labeltextclassification[J].IEEEAccess,2020,8:

30885-30896.

[50]QUANC,motioncorpusforemotional

expressionanalysisinChinese[J].ComputerSpeech&

Language,2010,24(4):726-749.

[51]LewisDD,YangYM,RoseTG,1:anew

benchmarkcollectionfortextcategorizationresearch[J].

JournalofMachineLearningResearch,2004,5:361-397.

[52]MENCIAEL,FÜentpairwisemulti-

labelclassificationforlarge-scaleproblemsinthelegal

domain[C]//JointEuropeanConferenceonMachineLearn-

,Hei-

delberg:Springer,2008:50-65.

[53]MCAULEYJ,factorsandhid-

dentopics:understandingratingdimensionswithreview

text[C]//7thACMConferenceonRecommenderSystems,

2013:165-172.

[54]SCHAPIRERE,edboostingalgo-

rithmsusingconfidence-ratedpredictions[J].MachineLearn-

ing,1999,37(3):297-336.

[55]SCHÜTZEH,MANNINGCD,-

ductiontoinformationretrieval[M].Cambridge:Cambridge

UniversityPress,2008.

[56]LIUW,SHENX,WANGH,rgingtrends

ofmulti-labellearning[J].arXiv:2011.11197,2020.

[57]WUT,HUANGQ,LIUZ,bution-balanced

lossformulti-labelclassificationinlong-taileddatasets[C]//

:Springer,

2020:162-178.


本文标签: 标签 文本 分类 模型