admin 管理员组

文章数量: 1086019


2024年5月1日发(作者: nstruction)

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

·肝细胞癌专题·

13

TCGA

数据库基因突变信息结合机器

学习软件

RapidMiner

构建肝细胞癌

患者复发模型

祁亮, 沈洁(南京大学医学院附属鼓楼医院 肿瘤中心

南京大学临床肿瘤研究所,南京

210008

摘要:目的

通过

TCGA

数据库基因突变信息结合机器学习软件

RapidMiner

构建肝细胞癌患者复发模

型。方法

首先通过

TCGA

数据库收集

316

例肝细胞癌患者的临床资料和全基因组测序的突变基因信

息;然后利用

R

语言和

SPSS19.0

筛选出前

127

个高频突变基因和

12

个与无疾病生存期(

disease-free

survival period

DFS

)显著相关的高频突变基因;通过

RapidMiner8.0

机器学习软件,利用

316

例患

者的突变基因信息训练决策树和支持向量机(

support vector machine

SVM

)模型。结果

通过利用

TCGA

数据库筛选的基因构建的决策树模型准确率为

77.42%

,通过构建

SVM

模型佐证决策树模型的最

大准确率为

77.42%

。结论

通过公共数据库构建的肝细胞癌患者的复发模型,可在临床上用来分析患

者的基因检测报告,除了提供药物治疗靶点的信息外,还可初步判断患者的预后;此外,对于部分经

济条件受限的患者可重点针对决策树中的基因进行检测,来预测预后及复发可能。

关键词:肝细胞癌;基因测序;决策树;支持向量机;机器学习

Construction of recurrence model of patients with hepatocellular carcinoma by gene mutation

information in TCGA database combined with machine learning software RapidMiner

QI Liang, SHEN Jie (Comprehensive Cancer Centre of Drum Tower Hospital, Medical School of Nanjing

University & Clinical Cancer Institute of Nanjing University, Nanjing 210008, China)

Abstract: Objective To investigate the construction of recurrence model of patients with hepatocellular

carcinoma (HCC) by gene mutation information in TCGA database combined with machine learning software

RapidMiner. Methods The clinical data and genome-sequenced mutant gene information of 316 patients

with HCC were collected according to the TCGA database. The first 127 high frequency mutation genes and

12 high frequency mutation genes which had significant correlation with disease-free survival period (DFS)

were screened by R language and SPSS 19.0. Mutated genetic information from 316 patients were applied

to train decision trees and support vector machines (SVM) models by RapidMiner 8.0 machine learning

software. Results The accuracy of the decision tree model constructed according to the TCGA database

was 77.42%, and the maximum accuracy of the decision tree model by constructing the SVM model was

77.42%. Conclusions The recurrence model of patients with HCC constructed by public database can be

used to analyze the gene detection report of patients in practice. In addition to providing information on

drug treatment targets, it can also judge the prognosis of patients preliminarily. Some patients with limited

economic conditions can focus on detecting genes in decision trees to predict the prognosis and recurrence.

Key words: Hepatocellular carcinoma; Gene sequencing; Decision tree; Support vector machine; Machine

learning

肝细胞癌(

hepatocellular carcinoma

HCC

,以

下简称肝癌)是全球最常见的恶性肿瘤,其发病率

DOI: 10.3969/.1674-7380.2018.03.003

基金项目:江苏省“十三五”科教强卫工程青年医学人才项目

QNRC2016043

);南京市医学科技发展重点项目(

ZKX16032

);重

大慢性非传染性疾病防控研究重点专项(

2017YFC1308900

通讯作者:沈洁

Email: shenjie2008nju@

和病死率均位于所有肿瘤的前

5

位。可进行手术治

疗的早期肝癌患者

1

年复发率高达

50%

以上,部分

患者治疗后

1

2

个月内便出现转移,对于已发生转

移的肝癌患者,目前有效的治疗手段为靶向治疗、

化疗及局部放疗缓解症状,但再治疗的有效率低于

10%

。因此,在肝癌患者初诊时找到有效方法预测

14

·肝细胞癌专题·

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

复发的风险,对治疗决策具有积极影响

[1]

诸多研究表明,肿瘤分期、大小、数目、癌

栓、

AFP

及循环肿瘤细胞等可预测肝癌患者术后或

综合治疗后的复发风险,但当这些因素出现阳性或

水平升高时,肝癌患者可能已经发生了影像学上尚

未能明确的微小转移,如何能在这些因素未出现波

动时预测复发风险呢?基因组测序为这种预测提供

了可能。借助美国

TCGA

数据库免费获得的经全基

因组测序的

376

例肝癌患者的突变基因和临床资料

等数据,通过

SPSS 19.0

统计软件生存曲线分析突变

基因与无疾病生存期(

disease-free survival period

DFS

)的相关性,找出能预测

DFS

的高频突变基因,

但这些突变基因在预测

DFS

中究竟可发挥多大作

用,笔者希望能定量分析并构建复发模型。本研究

中借助

R

语言(一种免费开源的大数据处理软件)和

目前较为流行的人工智能学习软件

RapidMiner

来实

现这种初诊肝癌患者复发模型的构建。

1 资料与方法

1.1 研究对象

TCGA

官网(

cancergenome.

/

)或

cbioportal

网站(

下载

376

例肝癌患者的临床及基因突变信息,经数

据处理后将其中非

HCC

病例及信息缺失的病例剔

除,筛选出

316

例有完整

DFS

记录的

HCC

患者为

研究对象。

1.2 高频突变基因的筛选

人类全基因组测序共

2

多个基因,

TCGA

数据库中记录的这些基因中有

9230

个突变基因,将大量稀有突变基因纳入建模

易导致过拟合(过拟合指用人工智能软件构建的模

型在训练集上拟合度很好,但泛化能力较差,不具

有实际应用价值),本研究选取了突变频率靠前

127

个相对高频突变基因,利用

SPSS 19.0

软件

进行生存分析,计算每个基因的

Log-rank P

值,从

127

个高频突变基因中筛选出

12

个与

DFS

有关的

高频突变基因。

1.3 聚类和不聚类热图的绘制

通过

R

语言(版本:

R3.4.2

)利用

pheatmap

包绘制上述

127

个突变基因与

患者

DFS

的聚类和不聚类热图(聚类是一种非监督学

习算法,由于事先并不知要分析的属性间的相关性,

通过聚类可发现这些属性间潜在的相关性)。由于数

据体量的局限性,

DFS

作为连续型变量时,如未能明

确发现这些高频突变基因突变与否和

DFS

的明确关

系,可将

DFS

进行特征筛选,简化为二分类变量。

1.4 决策树的构建及支持向量机算法

使用

RapidMiner8.0

软件(人工智能领域较为常用的一种预测分析和数

据挖掘软件)基于患者的基因突变信息和部分较为

完整的临床数据如:年龄、种族和性别等,按分层

抽样,以

9

1

的比例随机分为训练组和测试组,

先用训练组构建一个决策树

A

,然后用测试组测试

这个模型,通过调整参数,计算该决策树的最高准

确率。利用相同方法,构建

12

个与

DFS

有关的高

频突变基因的决策树

B

,计算最高准确率。使用支

持向量机(support vector machine,

SVM

)算法从另

一个角度构建模型并计算准确率。本研究的流程图

见图

1

1.4 统计学处理

采用

SPSS 19.0

统计软件进行

Log-rank

生存分析,以

P

0.05

为差异有统计学意义。

2 结果

2.1 高频突变基因

本研究选取的

127

个相对高频突

变基因分别为

TTN

ALMS1

KMT2D

PKHD1L1

DMD

SVEP1

MT-ND6

ROBO2

TP53

HMCN1

SYNE1

FREM2

MT-CO1

HERC1

NEFH

CTNNB1

FRAS1

DSPP

MYO3A

KEAP1

LRP2

NFE2L2

MUC16

USH2A

BAP1

DNAH5

GCN1

FBN1

SPEG

ALB

MUC4

FAT4

DYNC2H1

HTT

PKHD1

FANCM

PCLO

FLG

CUBN

DOCK2

KIAA1109

UNC79

KMT2A

APOB

AHNAK2

DNAH9

RYR3

PTPRQ

DCHS1

MAP1B

RYR2

NBEA

SYNE2

MUC2

FBN2

POLQ

SACS

ND5

EYS

TCHH

HERC2

PREX2

DNAH2

DNAH17

CSMD3

CSMD1

ZNF469

DNAH10

FMN2

LAMA1

COL6A6

OBSCN

AXIN1

HSPG2

MUC17

CSMD2

PREX1

HECTD4

ABCA13

RB1

ZFHX4

LRP1

FASN

NEB

JAK1

ARID1A

DNAH7

UNC80

ANKRD12

FAT2

MYCBP2

NCAM1

CACNA1E

ADGRV1

COL11A1

ABCA12

COL6A3

UNC13C

MYO18B

LRP1B

CYTB

BIRC6

DCHS2

COL12A1

DSCAM

ITPR1

XIRP2

ARID2

KMT2B

PRUNE2

ATR

SDK1

ASCC3

SPTA1

DNAH6

WDR87

KMT2C

SETD2

PCDH15

DST

RYR1

FAT3

AHNAK

DNAH8

MDN1

KIF26B

TENM4

。通过

Log-rank

生存分

析筛选出

12

个与

DFS

有关的高频突变基因分别

TP53

APOB

ABCA13

FRAS1

CSMD1

RB1

DSPP

KMT2B

FREM2

DNAH8

ATR

ASCC3

P

0.05

),见表

1

2.2 聚类和不聚类热图

R

语言绘制的

316

例患者中

127

个高频突变基因与

DFS

的聚类热图及不聚类热

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

·肝细胞癌专题·

15

图见图

2

,结果表明上述

12

个基因突变中具有至少

1

个的患者,

DFS

较短,易复发;具有高频突变基

因数多的患者,

DFS

相对较短,容易复发,高频基

因突变越低,

DFS

更倾向于半年以上复发。

2.3 决策树的构建和支持向量机算法

决策树

A

和决

策树

B

的算法流程见图

3

和图

4

,分类结果混淆矩阵

见表

2

和表

3

,决策树

A

的最高准确率为

77.42%

决策树

B

的最高准确率也为

77.42%

。使用

SVM

TCGA

数据库中选出

376

例肝癌患者

利用

SPSS19.0

统计软件中

的生存曲线筛选出与

DFS

相关(Log-rankP<0.05)

的高频突变基因12个

筛选出316例

例从376例患者中筛选出316

胞肝癌患者

信息完整的肝细胞肝癌患者

利用

R

语言绘制前

127

个高频突变基因与

DFS

(连续型变量)的聚类

和不聚类热图

将DFS转变为二分类变量(半年内

复发,半年以上复发)后,利用

RapidMiner8.0软件绘制决策树,同

时用支持向量机(

SVM

)算法佐证

决策树的准确率

定性描述:

①具有至少1个上述12个基因突变的患者,DFS较

短,易复发

②从热图可以看出,具有高频突变基因数多的患者,

DFS

相对较短,容易复发

定量描述:

对于

1

位进行过基因测序的肝癌患者,

可根据决策树判断该患者易半年内复

发还是半年以上复发,该决策树算法的

准确率为77.42%,可为制定后续治疗方

案提供参考。

1

本研究流程图

1 376

例肝癌患者前

127

个高频突变基因中与

DFS

有关的

12

个高频突变基因

名称

TP53

APOB

ABCA13

FRAS1

CSMD1

RB1

DSPP

KMT2B

FREM2

DNAH8

ATR

ASCC3

染色体上位置

17p13.1

2p24.1

7p12.3

4q21.21

8p23.2

13q14.2

4q22.1

19q13.12

13q13.3

6p21.2

3q23

6q16.3

基因长度(nt)

19149

42645

476074

486947

2059683

178144

8345

21063

200096

315470

129592

373179

有突变(例)

100

35

28

20

21

18

18

13

17

12

12

9

无突变(例)

225

290

297

305

304

307

307

312

308

313

313

316

有突变已死亡

(例)

62

23

21

14

17

14

7

10

13

10

11

8

无突变已死亡

(例)

117

156

158

165

162

165

172

169

166

169

168

171

Log-rank

P

0.004

0.035

< 0.001

0.034

0.012

0.012

0.186

0.008

0.003

0.002

0.005

0.022

2

决策树

A

的分类结果混淆矩阵

真实情况

6

个月内复发

6

个月以上复发

敏感性(

%

预测结果

6

个月内复发(例)

2

5

28.57

6

个月以上复发(例)

2

22

91.67

特异性(

%

50.00

81.48

-

16

·肝细胞癌专题·

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

聚类热图 单侧聚类热图 不聚类热图

2 R

语言绘制的

316

例患者中

127

个高频突变基因与

DFS

的聚类热图、单侧聚类热图及不聚类热图

基因:XIRP2

是否有突变

6个月以上复发

(0/3)

基因:NEB

是否有突变

基因:

ATR

是否有突变

6个月以内复发

(8/3)

基因:TTN

是否有突变

6个月以上复发

(1/3)

基因:FREM2

是否有突变

基因:RYR1

是否有突变

是 否

基因:ALB

是否有突变

是 否

6个月以上复发

(3/4)

6个月以内复发

(5/0)

6个月以上复发

(50/229)

6个月以上复发

(0/3)

6个月以内复发

(4/0)

3

用决策树算法构建的

127

个高频突变基因预测复发的模型

A

3

决策树

B

的分类结果混淆矩阵

真实情况

6

个月内复发

6

个月以上复发

敏感性(

%

预测结果

6

个月内复发(例)

1

6

14.29

6

个月以上复发(例)

1

23

95.83

特异性(

%

50.00

79.31

-

注:“

-

”为无相关数据

4

支持向量机(

SVM

)的分类结果混淆矩阵

真实情况

6

个月内复发

6

个月以上复发

敏感性(

%

预测结果

6

个月内复发(例)

0

7

0.00

6

个月以上复发(例)

0

24

100.00

特异性(

%

00.00

77.42

-

注:“

-

”为无相关数据

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

·肝细胞癌专题·

17

基因:ATR

是否有突变

否 是

基因:FREM2

是否有突变

6个月以上复发

(58/233)

年龄

>70

6个月以上复发

(0/3)

是 ≤70

年龄

>71 ≤71

人种

亚裔

6个月以内复发

(4/0)

非亚裔

基因:

ABCA13

是否有突变

6个月以上复发

(0/2)

6个月以内复发

(3/0)

基因:APOB

是否有突变

否 是

6个月以上复发

(0/3)

6个月以内复发

(2/0)

年龄

>71 ≤71

6个月以内复发

(2/0)

人种

亚裔

6个月以上复发

(0/3)

非亚裔

6个月以内复发

(2/1)

4

用决策树算法构建的

12

个与

DFS

有关的高频突变基因预测复发的模型

B

5

用支持向量机(

SVM

)构建的基因突变预测复发的模型

注:

A

列出了每个基因在分类中的权重参数值,偏置参数为

1.144

B

显示在二维平面中

316

例患者的包含

127

个突变基因,即

127

个特征的函数分布;

C

显示了在三维空间里,

SVM

利用核函数将半年内复发(蓝色)和半年以上复发(红色)的患者区分开,准确率为

77.42%

18

·肝细胞癌专题·

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

法从另一个角度构建模型,见图

5

,分类结果混淆矩

阵见表

4

,准确率也为

77.42%

。模型构建完成。

3 讨论

机器学习致力于研究如何通过计算手段并利用

经验来改善系统自身的性能,在计算机系统中,

“经验”通常以“数据”形式存在,因此,机器

学习所研究的主要内容是在计算机上从数据中产

生“模型”(

Model

)的算法,即“学习算法”

learning algorithm

)。将经验数据提供给学习算

法即可基于这些积累的大量数据产生模型,然后在

面对新的肝癌患者时,模型会提供相应的判断(如

预后、复发风险、疗效、影像等)。机器学习与十

几年前出现的各种专家诊疗系统有本质区别,专家

系统是将既往许多专家诊疗的病例汇集到一起,编

成固定程序,当遇到新的肝癌患者时,专家系统会

检索自己的数据库,找到最匹配的数据,然后给出

诊疗建议;而机器学习是利用多种算法,让计算机

自己学习既往诊疗的大量病例,把这些病例的所有

特征或属性综合分析,使机器自己“习得”最佳的

诊疗模型,然后去面对新的患者,在后续使用中,

可根据新的病例继续学习、完善模型,这也是人工

智能的体现

[2-4]

机器学习领域旨在开发经验丰富的计算机算法,

其有望使计算机帮助人们分析大型复杂的数据集,

如:肝癌影像学上的序列元素、肝癌的基因测序及表

观遗传学、肝癌蛋白质组学和肝癌代谢组学

[5,6]

。肝

癌诊疗领域常用的机器学习算法包括人工神经网络

artificial neural network

ANN

)、决策树和支持向量

3

[2-9]

决策树(

decision tree

)是一个树结构(可以是

二叉树或非二叉树)。其每个非叶节点表示一个特

征属性上的测试,每个分支代表这个特征属性在某

个值域上的输出,而每个叶节点存放一个类别。使

用决策树进行决策的过程是从根节点开始,测试待

分类项中相应的特征属性,并按照其值选择输出分

支,直到到达叶子节点,将叶子节点存放的类别作

为决策结果。决策树的决策过程非常直观,易于理

解。目前决策树已经成功运用于医学、制造产业、

天文学、分子生物学以及商业等诸多领域。

2015

Omran

[10]

通过

315

例感染

HCV

的慢性肝病患者、

116

例肝硬化患者及

135

HCC

患者的临床资料,

构建了预测肝癌患者预后的决策树模型,敏感性为

83.5%

,准确性为

83.3%

,并且通过机器学习的算法

发现了可以独立预测肝癌发生风险的

AFP

临界值,提

示机器学习与临床资料等大数据结合可发挥重要的

预测功能,可辅助影像检查指导诊疗甚至独立预测

肝癌的发生及预后,避免风险较大的有创检查或操

作。

Wang

[11]

通过收集

634

例肝癌手术患者的资料,

构建了肝癌肝切除术后患者发生肝衰竭的决策树。

He

[12]

利用决策树算法分析了肝癌患者确诊或治疗

前后不同影像学评估的准确性和费用,选择最佳影

像学检查手段,减轻了患者的经济负担。

2013

Cao

[13]

50

例肝癌患者术后的血清蛋白质谱训练决策

树,之后用

36

例同质患者验证决策树的准确率,找

到能够预测肝癌术后肝内复发的血清标记物。

SVM

最早于

1963

年提出,是一种监督学习的分

类方法,以统计学理论中的

VC

维理论以及结构化风

险最小化为基础,引入最优分界面思想及核函数方

法,对输入数据进行训练学习来对分类情况进行建

模,对线性及非线性数据进行有效分类。

SVM

在解

决高维、非线性以及小样本数据分类问题中具有较

大优势。

2012

Ho

[14]

利用

SVM

算法和神经网络对

482

例接受肝癌切除术患者的临床数据资料训练机器

学习模型,用于预测复发和生存,并通过对比不同

模型的

ROC

曲线下面积评估了模型的优缺点。

张朋军等

[15]

52

例早期肝癌患者和

34

例健康对

照人群的外周血基因数据进行分析,分别用逻辑回

归和人工神经网络构建外周血多参数基因诊断模

型,结果显示人工神经网络的灵敏度和特异度均高

于逻辑回归(

96% vs 94%

86% vs 80%

),人工神

经网络在肝癌的预测及早期检测中有更好的诊断

价值。

2017

Qin

[16]

使用

Illumina

公司甲基化分析

450K Beadchip

576

例早期肝癌患者的基因

CpG

甲基化水平进行检测,所得数据采用机器学习中

Lasso

算法及

SVM-RFE

算法(

Lasso

算法用于精简数

据,降低维度;

SVM-RFE

算法即支持向量机递归

特征消除算法),建立了预测早期肝癌复发风险的

甲基化标签。

2018

Augello

[17]

使用机器学习中

的分类算法发现

MICA

基因的两个单核苷酸多态性

位点

rs2596542

rs2596538

及“年龄”可用于肝硬

化和肝癌的鉴别分类。

Chandhary

[18]

利用

TCGA

数据中的

360

HCC

患者的

RNA

测序、

miRNA

测序

及甲基化数据,构建了一个含有

3

个隐藏层的多层

人工神经网络模型,确定了

2

个不同生存期

HCC

者的亚群分类。

Liao

[19]

HCC

患者的

Dishevelled/

EGL-10/Pleckstrin

DEP

)结构域(

DEPDC

)蛋白

质超家族进行研究,设计了一种分离

DEPDCs

和非

DEPDCs

的计算方法。首先,检查已知

DEPDC

Pfam

数,并使用每个

Pfam

的最长序列构建系统发

育树;随后,提取

DEPDCs

和非

DEPDCs

188

《中国肝脏病杂志(电子版)》2018年 第10卷 第3期

·肝细胞癌专题·

19

188D

)和

20D

特征,用随机森林分类器进行了分

类;最后,设计

HCC

及癌旁正常组织中人

DEPDC

表达水平的实验验证方法。结果表明,

DEPDCs

家族可分为

3

类,

188D

20D

特征可用于有效区分

两种蛋白质的类型。该研究成功构建了

DEPDCs

二元分类器,并通过实验验证了其在人肝癌组织中

[20]

的表达。

Liang

使用机器学习结合代谢组学从

HCC

患者的尿液中鉴定了

15

HCC

患者和匹配的健

康对照者有差异的代谢物,涉及几种关键的代谢途

径,其中

5

种代谢物对

HCC

有诊断价值,灵敏度为

96.5%

,特异度为

83%

既往研究利用患者的临床资料,包括性别、年

龄、种族、

HBV/HCV

感染、

Child-Pugh

分级、

TNM

期、

BCLC

分期、肿瘤大小、肿瘤数量、癌栓、

ALT/

AST

、胆红素水平、血小板水平、肝纤维化程度和手

术术式等信息训练了许多优秀的决策树模型,这些决

[5-9]

策树模型的准确度为

70%

95%

,但由于国内全基

因组测序和全外显子组测序的患者数量尚在积累过程

中,并未有大量数据可用来训练预测模型,故关于我

[21]

国肝癌突变基因预测预后的研究非常少

本研究首次利用

HCC

患者的全基因组测序信

息,从高频突变基因出发,预测患者的复发,两种

决策树模型和支持向量机模型的总体准确率均为

77.42%

,但利用

127

个高频突变基因训练的决策树模

型的查全率和查准率均高于

12

个高频突变基因训练

的决策树和支持向量机模型,所以在临床实践中可

使用决策树

A

分析患者的基因测序报告,在患者接

受治疗前给予初步的预后预测及复发可能性评估,

为制定个体化的综合治疗方案提供参考和依据;对

于一部分受经济条件限制、不能行全基因组或全外

显子组测序的患者,可根据决策树中的基因进行有

针对性的检测。本研究也存在不足之处:①由于数

据来自

TCGA

,该数据库

HCC

患者的资料无治疗信

息,所以无法评估治疗方案对预后的影响;②目前

除了

TCGA

数据库,国内各肿瘤中心尚未积累如此多

的全基因组测序患者的信息,后续需积累更多中国

HCC

患者的全基因组测序信息,以完善预测复发的

模型;③本研究中各种模型半年以上复发的敏感率

和准确率均较高,但半年以内复发的敏感率和准确

率非常低,考虑和样本量较少、半年内复发影响因

素较多有关,后续将逐渐积累我国

HCC

患者的基因

测序数据,完善半年内复发患者的预测模型。

参考文献

[1]

[2]

[3]

[4]

[5]

[6]

刘秀红

,

赵一鸣

,

赵晓飞

,

.

肝细胞癌诊断与治疗研究进展

[J/CD].

中国肝脏病杂志

(

电子版

),2017,9(2):20-25.

Vijay Kotu, Bala Deshpande.

预测分析与数据挖掘

[M].

北京

:

人民邮

电出版社

,2018:52-72.

周志华

.

机器学习

[M].

北京

:

清华大学出版社

,2016:73-95.

麻书琴

. Relief

特征选择与混合核

SVM

在疾病诊断中的研究

[D].

:

太原理工大学

,2017.

Giger ML. Machine learning in medical imaging[J]. J Am Coll

Radiol,2018,15(3 Pt B):512-520.

Cao C, Liu F, Tan H, et al. Deep learning and its applications in

biomedicine[J]. Genomics Proteomics Bioinformatics,2018,16(1):17-

32.

Lee JG, Jun S, Cho YW, et al. Deep learning in medical imaging:

general overview[J]. Korean J Radiol,2017,18(4):570-584.

Li S, Jiang H, Pang W. Joint multiple fully connected convolutional

neural network with extreme learning machine for hepatocellular

carcinoma nuclei grading[J]. Comput Biol Med,2017,84:156-167.

Pang W, Jiang H, Li S. Sparse contribution feature selection and

classifiers optimized by concave-convex variation for HCC image

recognition[J]. Biomed Res Int,2017,2017:9718386.

Omran DA, Awad AH, Mabrouk MA, et al. Application of data mining

techniques to explore predictors of HCC in Egyptian patients with HCV-

related chronic liver disease[J]. Asian Pac J Cancer Prev,2015,16(1):381-385.

Wang XQ, Liu Z, Lv WP, et al. Safety validation of decision trees for

hepatocellular carcinoma[J]. World J Gastroenterol,2015,21(31):9394-

9402.

He X, Wu J, Holtorf AP. Health economic assessment of Gd-EOB-

DTPA MRI versus ECCM-MRI and multi-detector CT for diagnosis of

hepatocellular carcinoma in China[J]. PLoS One,2018,13(1):e0191095.

Cao XL, Li H, Yu XL, et al. Predicting early intrahepatic recurrence of

hepatocellular carcinoma after microwave ablation using SELDI-TOF

proteomic signature[J]. PLoS One,2013,8(12):e82448.

Ho WH, Lee KT, Chen HY, et al. Disease-free survival after hepatic

resection in hepatocellular carcinoma patients: a prediction approach

using artificial neural network[J]. PLoS One,2012,7(1):e29179.

张朋军

,

田亚平

.

外周血多参数基因诊断模型对于原发性肝细胞癌

诊断价值的评价

[J]

标记免疫分析与临床

,2014,21(5):499-502.

Qiu J, Peng B, Tang Y, et al. CpG methylation signature predicts

recurrence in early-stage hepatocellular carcinoma: results from a

multicenter study[J]. J Clin Oncol,2017,35(7):734-742.

Augello G, Balasus D, Fusilli C, et al. Association between MICA

gene variants and the risk of hepatitis C virus-induced hepatocellular

cancer in a Sicilian population sample[J]. OMICS,2018,22(4):274-282.

Chaudhary K, Poirion OB, Lu L, et al. Deep learning-based multi-

omics integration robustly predicts survival in liver cancer[J]. Clin

Cancer Res,2018,24(6):1248-1259.

Liao Z, Wang X, Zeng Y, et al. Identification of DEP domain-

containing proteins by a machine learning method and experimental

analysis of their expression in human HCC tissues[J]. Sci

Rep,2016,6:39655.

Liang Q, Liu H, Wang C, et al. Phenotypic characterization analysis

of human hepatocarcinoma by urine metabolomics approach[J]. Sci

Rep,2016,6:19763.

Libbrecht MW, Noble WS. Machine learning applications in genetics

and genomics[J]. Nat Rev Genet,2015,16(6):321-332.

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

收稿日期:2018-04-28

祁亮

,

沈洁

.

TCGA数据库基因突变信息结合机器学习软件RapidMiner构建肝细胞癌患者复发模型

[J/CD].

中国肝脏病杂

(

电子版

), 2018,10(3):13-19.


本文标签: 患者 基因 肝癌 模型 预测