TCGA数据库基因突变信息结合机器学习软件RapidMiner构建肝细胞癌患者复-Linux大棚

admin 管理员组

文章数量: 1087652

2024年5月1日发(作者： nstruction)

《中国肝脏病杂志（电子版）》2018年第10卷第3期

·肝细胞癌专题·

TCGA

数据库基因突变信息结合机器

学习软件

RapidMiner

构建肝细胞癌

患者复发模型

祁亮, 沈洁（南京大学医学院附属鼓楼医院肿瘤中心

南京大学临床肿瘤研究所，南京

210008

）

摘要：目的

通过

TCGA

数据库基因突变信息结合机器学习软件

RapidMiner

构建肝细胞癌患者复发模

型。方法

首先通过

TCGA

数据库收集

316

例肝细胞癌患者的临床资料和全基因组测序的突变基因信

息；然后利用

语言和

SPSS19.0

筛选出前

127

个高频突变基因和

个与无疾病生存期（

disease-free

survival period

，

DFS

）显著相关的高频突变基因；通过

RapidMiner8.0

机器学习软件，利用

316

例患

者的突变基因信息训练决策树和支持向量机（

support vector machine

，

SVM

）模型。结果

通过利用

TCGA

数据库筛选的基因构建的决策树模型准确率为

77.42%

，通过构建

SVM

模型佐证决策树模型的最

大准确率为

77.42%

。结论

通过公共数据库构建的肝细胞癌患者的复发模型，可在临床上用来分析患

者的基因检测报告，除了提供药物治疗靶点的信息外，还可初步判断患者的预后；此外，对于部分经

济条件受限的患者可重点针对决策树中的基因进行检测，来预测预后及复发可能。

关键词：肝细胞癌；基因测序；决策树；支持向量机；机器学习

Construction of recurrence model of patients with hepatocellular carcinoma by gene mutation

information in TCGA database combined with machine learning software RapidMiner

QI Liang, SHEN Jie (Comprehensive Cancer Centre of Drum Tower Hospital, Medical School of Nanjing

University & Clinical Cancer Institute of Nanjing University, Nanjing 210008, China)

Abstract: Objective To investigate the construction of recurrence model of patients with hepatocellular

carcinoma (HCC) by gene mutation information in TCGA database combined with machine learning software

RapidMiner. Methods The clinical data and genome-sequenced mutant gene information of 316 patients

with HCC were collected according to the TCGA database. The first 127 high frequency mutation genes and

12 high frequency mutation genes which had significant correlation with disease-free survival period (DFS)

were screened by R language and SPSS 19.0. Mutated genetic information from 316 patients were applied

to train decision trees and support vector machines (SVM) models by RapidMiner 8.0 machine learning

software. Results The accuracy of the decision tree model constructed according to the TCGA database

was 77.42%, and the maximum accuracy of the decision tree model by constructing the SVM model was

77.42%. Conclusions The recurrence model of patients with HCC constructed by public database can be

used to analyze the gene detection report of patients in practice. In addition to providing information on

drug treatment targets, it can also judge the prognosis of patients preliminarily. Some patients with limited

economic conditions can focus on detecting genes in decision trees to predict the prognosis and recurrence.

Key words: Hepatocellular carcinoma; Gene sequencing; Decision tree; Support vector machine; Machine

learning

肝细胞癌（

hepatocellular carcinoma

，

HCC

，以

下简称肝癌）是全球最常见的恶性肿瘤，其发病率

DOI: 10.3969/.1674-7380.2018.03.003

基金项目：江苏省“十三五”科教强卫工程青年医学人才项目

（

QNRC2016043

）；南京市医学科技发展重点项目（

ZKX16032

）；重

大慢性非传染性疾病防控研究重点专项（

2017YFC1308900

）

通讯作者：沈洁

Email: shenjie2008nju@

和病死率均位于所有肿瘤的前

位。可进行手术治

疗的早期肝癌患者

年复发率高达

50%

以上，部分

患者治疗后

～

个月内便出现转移，对于已发生转

移的肝癌患者，目前有效的治疗手段为靶向治疗、

化疗及局部放疗缓解症状，但再治疗的有效率低于

10%

。因此，在肝癌患者初诊时找到有效方法预测

·肝细胞癌专题·

《中国肝脏病杂志（电子版）》2018年第10卷第3期

复发的风险，对治疗决策具有积极影响

[1]

。

诸多研究表明，肿瘤分期、大小、数目、癌

栓、

AFP

及循环肿瘤细胞等可预测肝癌患者术后或

综合治疗后的复发风险，但当这些因素出现阳性或

水平升高时，肝癌患者可能已经发生了影像学上尚

未能明确的微小转移，如何能在这些因素未出现波

动时预测复发风险呢？基因组测序为这种预测提供

了可能。借助美国

TCGA

数据库免费获得的经全基

因组测序的

376

例肝癌患者的突变基因和临床资料

等数据，通过

SPSS 19.0

统计软件生存曲线分析突变

基因与无疾病生存期（

disease-free survival period

，

DFS

）的相关性，找出能预测

DFS

的高频突变基因，

但这些突变基因在预测

DFS

中究竟可发挥多大作

用，笔者希望能定量分析并构建复发模型。本研究

中借助

语言（一种免费开源的大数据处理软件）和

目前较为流行的人工智能学习软件

RapidMiner

来实

现这种初诊肝癌患者复发模型的构建。

1 资料与方法

1.1 研究对象

从

TCGA

官网（

cancergenome.

）或

cbioportal

网站（

）

下载

376

例肝癌患者的临床及基因突变信息，经数

据处理后将其中非

HCC

病例及信息缺失的病例剔

除，筛选出

316

例有完整

DFS

记录的

HCC

患者为

研究对象。

1.2 高频突变基因的筛选

人类全基因组测序共

万

多个基因，

TCGA

数据库中记录的这些基因中有

9230

个突变基因，将大量稀有突变基因纳入建模

易导致过拟合（过拟合指用人工智能软件构建的模

型在训练集上拟合度很好，但泛化能力较差，不具

有实际应用价值），本研究选取了突变频率靠前

的

127

个相对高频突变基因，利用

SPSS 19.0

软件

进行生存分析，计算每个基因的

Log-rank P

值，从

127

个高频突变基因中筛选出

个与

DFS

有关的

高频突变基因。

1.3 聚类和不聚类热图的绘制

通过

语言（版本：

R3.4.2

）利用

pheatmap

包绘制上述

127

个突变基因与

患者

DFS

的聚类和不聚类热图（聚类是一种非监督学

习算法，由于事先并不知要分析的属性间的相关性，

通过聚类可发现这些属性间潜在的相关性）。由于数

据体量的局限性，

DFS

作为连续型变量时，如未能明

确发现这些高频突变基因突变与否和

DFS

的明确关

系，可将

DFS

进行特征筛选，简化为二分类变量。

1.4 决策树的构建及支持向量机算法

使用

RapidMiner8.0

软件（人工智能领域较为常用的一种预测分析和数

据挖掘软件）基于患者的基因突变信息和部分较为

完整的临床数据如：年龄、种族和性别等，按分层

抽样，以

∶

的比例随机分为训练组和测试组，

先用训练组构建一个决策树

，然后用测试组测试

这个模型，通过调整参数，计算该决策树的最高准

确率。利用相同方法，构建

个与

DFS

有关的高

频突变基因的决策树

，计算最高准确率。使用支

持向量机（support vector machine，

SVM

）算法从另

一个角度构建模型并计算准确率。本研究的流程图

见图

。

1.4 统计学处理

采用

SPSS 19.0

统计软件进行

Log-rank

生存分析，以

＜

0.05

为差异有统计学意义。

2 结果

2.1 高频突变基因

本研究选取的

127

个相对高频突

变基因分别为

TTN

、

ALMS1

、

KMT2D

、

PKHD1L1

、

DMD

、

SVEP1

、

MT-ND6

、

ROBO2

、

TP53

、

HMCN1

、

SYNE1

、

FREM2

、

MT-CO1

、

HERC1

、

NEFH

、

CTNNB1

、

FRAS1

、

DSPP

、

MYO3A

、

KEAP1

、

LRP2

、

NFE2L2

、

MUC16

、

USH2A

、

BAP1

、

DNAH5

、

GCN1

、

FBN1

、

SPEG

、

ALB

、

MUC4

、

FAT4

、

DYNC2H1

、

HTT

、

PKHD1

、

FANCM

、

PCLO

、

FLG

、

CUBN

、

DOCK2

、

KIAA1109

、

UNC79

、

KMT2A

、

APOB

、

AHNAK2

、

DNAH9

、

RYR3

、

PTPRQ

、

DCHS1

、

MAP1B

、

RYR2

、

NBEA

、

SYNE2

、

MUC2

、

FBN2

、

POLQ

、

SACS

、

ND5

、

EYS

、

TCHH

、

HERC2

、

PREX2

、

DNAH2

、

DNAH17

、

CSMD3

、

CSMD1

、

ZNF469

、

DNAH10

、

FMN2

、

LAMA1

、

COL6A6

、

OBSCN

、

AXIN1

、

HSPG2

、

MUC17

、

CSMD2

、

PREX1

、

HECTD4

、

ABCA13

、

RB1

、

ZFHX4

、

LRP1

、

FASN

、

NEB

、

JAK1

、

ARID1A

、

DNAH7

、

UNC80

、

ANKRD12

、

FAT2

、

MYCBP2

、

NCAM1

、

CACNA1E

、

ADGRV1

、

COL11A1

、

ABCA12

、

COL6A3

、

UNC13C

、

MYO18B

、

LRP1B

、

CYTB

、

BIRC6

、

DCHS2

、

COL12A1

、

DSCAM

、

ITPR1

、

XIRP2

、

ARID2

、

KMT2B

、

PRUNE2

、

ATR

、

SDK1

、

ASCC3

、

SPTA1

、

DNAH6

、

WDR87

、

KMT2C

、

SETD2

、

PCDH15

、

DST

、

RYR1

、

FAT3

、

AHNAK

、

DNAH8

、

MDN1

、

KIF26B

、

TENM4

。通过

Log-rank

生存分

析筛选出

个与

DFS

有关的高频突变基因分别

为

TP53

、

APOB

、

ABCA13

、

FRAS1

、

CSMD1

、

RB1

、

DSPP

、

KMT2B

、

FREM2

、

DNAH8

、

ATR

和

ASCC3

（

＜

0.05

），见表

。

2.2 聚类和不聚类热图

语言绘制的

316

例患者中

127

个高频突变基因与

DFS

的聚类热图及不聚类热

《中国肝脏病杂志（电子版）》2018年第10卷第3期

·肝细胞癌专题·

图见图

，结果表明上述

个基因突变中具有至少

个的患者，

DFS

较短，易复发；具有高频突变基

因数多的患者，

DFS

相对较短，容易复发，高频基

因突变越低，

DFS

更倾向于半年以上复发。

2.3 决策树的构建和支持向量机算法

决策树

和决

策树

的算法流程见图

和图

，分类结果混淆矩阵

见表

和表

，决策树

的最高准确率为

77.42%

，

决策树

的最高准确率也为

77.42%

。使用

SVM

算

TCGA

数据库中选出

376

例肝癌患者

利用

SPSS19.0

统计软件中

的生存曲线筛选出与

DFS

相关（Log-rankP＜0.05）

的高频突变基因12个

筛选出316例

例从376例患者中筛选出316

胞肝癌患者

信息完整的肝细胞肝癌患者

利用

语言绘制前

127

个高频突变基因与

DFS

（连续型变量）的聚类

和不聚类热图

将DFS转变为二分类变量（半年内

复发，半年以上复发）后，利用

RapidMiner8.0软件绘制决策树，同

时用支持向量机（

SVM

）算法佐证

决策树的准确率

定性描述：

①具有至少1个上述12个基因突变的患者，DFS较

短，易复发

②从热图可以看出，具有高频突变基因数多的患者，

DFS

相对较短，容易复发

定量描述：

对于

位进行过基因测序的肝癌患者，

可根据决策树判断该患者易半年内复

发还是半年以上复发，该决策树算法的

准确率为77.42%，可为制定后续治疗方

案提供参考。

图

本研究流程图

表

1 376

例肝癌患者前

127

个高频突变基因中与

DFS

有关的

个高频突变基因

名称

TP53

APOB

ABCA13

FRAS1

CSMD1

RB1

DSPP

KMT2B

FREM2

DNAH8

ATR

ASCC3

染色体上位置

17p13.1

2p24.1

7p12.3

4q21.21

8p23.2

13q14.2

4q22.1

19q13.12

13q13.3

6p21.2

3q23

6q16.3

基因长度（nt）

19149

42645

476074

486947

2059683

178144

8345

21063

200096

315470

129592

373179

有突变（例）

100

无突变（例）

225

290

297

305

304

307

312

308

313

316

有突变已死亡

（例）

无突变已死亡

（例）

117

156

158

165

162

165

172

169

166

169

168

171

Log-rank

值

0.004

0.035

＜ 0.001

0.034

0.012

0.186

0.008

0.003

0.002

0.005

0.022

表

决策树

的分类结果混淆矩阵

真实情况

个月内复发

个月以上复发

敏感性（

）

预测结果

个月内复发（例）

28.57

个月以上复发（例）

91.67

特异性（

）

50.00

81.48

·肝细胞癌专题·

《中国肝脏病杂志（电子版）》2018年第10卷第3期

聚类热图单侧聚类热图不聚类热图

图

2 R

语言绘制的

316

例患者中

127

个高频突变基因与

DFS

的聚类热图、单侧聚类热图及不聚类热图

是

基因：XIRP2

是否有突变

是

6个月以上复发

(0/3)

基因：NEB

是否有突变

否

基因：

ATR

是否有突变

否

6个月以内复发

(8/3)

是

基因：TTN

是否有突变

否

6个月以上复发

(1/3)

否

基因：FREM2

是否有突变

是

基因：RYR1

是否有突变

是否

基因：ALB

是否有突变

是否

6个月以上复发

(3/4)

是

6个月以内复发

(5/0)

否

6个月以上复发

(50/229)

6个月以上复发

(0/3)

6个月以内复发

(4/0)

图

用决策树算法构建的

127

个高频突变基因预测复发的模型

表

决策树

的分类结果混淆矩阵

真实情况

个月内复发

个月以上复发

敏感性（

）

预测结果

个月内复发（例）

14.29

个月以上复发（例）

95.83

特异性（

）

50.00

79.31

注：“

”为无相关数据

表

支持向量机（

SVM

）的分类结果混淆矩阵

真实情况

个月内复发

个月以上复发

敏感性（

）

预测结果

个月内复发（例）

0.00

个月以上复发（例）

100.00

特异性（

）

00.00

77.42

注：“

”为无相关数据

《中国肝脏病杂志（电子版）》2018年第10卷第3期

·肝细胞癌专题·

基因：ATR

是否有突变

否是

基因：FREM2

是否有突变

否

6个月以上复发

(58/233)

年龄

＞70

6个月以上复发

(0/3)

是 ≤70

年龄

＞71 ≤71

人种

亚裔

6个月以内复发

(4/0)

非亚裔

基因：

ABCA13

是否有突变

否

6个月以上复发

(0/2)

6个月以内复发

(3/0)

基因：APOB

是否有突变

否是

6个月以上复发

(0/3)

是

6个月以内复发

(2/0)

年龄

＞71 ≤71

6个月以内复发

(2/0)

人种

亚裔

6个月以上复发

(0/3)

非亚裔

6个月以内复发

(2/1)

图

用决策树算法构建的

个与

DFS

有关的高频突变基因预测复发的模型

图

用支持向量机（

SVM

）构建的基因突变预测复发的模型

注：

列出了每个基因在分类中的权重参数值，偏置参数为

1.144

；

显示在二维平面中

316

例患者的包含

127

个突变基因，即

127

个特征的函数分布；

显示了在三维空间里，

SVM

利用核函数将半年内复发（蓝色）和半年以上复发（红色）的患者区分开，准确率为

77.42%

·肝细胞癌专题·

《中国肝脏病杂志（电子版）》2018年第10卷第3期

法从另一个角度构建模型，见图

，分类结果混淆矩

阵见表

，准确率也为

77.42%

。模型构建完成。

3 讨论

机器学习致力于研究如何通过计算手段并利用

经验来改善系统自身的性能，在计算机系统中，

“经验”通常以“数据”形式存在，因此，机器

学习所研究的主要内容是在计算机上从数据中产

生“模型”（

Model

）的算法，即“学习算法”

（

learning algorithm

）。将经验数据提供给学习算

法即可基于这些积累的大量数据产生模型，然后在

面对新的肝癌患者时，模型会提供相应的判断（如

预后、复发风险、疗效、影像等）。机器学习与十

几年前出现的各种专家诊疗系统有本质区别，专家

系统是将既往许多专家诊疗的病例汇集到一起，编

成固定程序，当遇到新的肝癌患者时，专家系统会

检索自己的数据库，找到最匹配的数据，然后给出

诊疗建议；而机器学习是利用多种算法，让计算机

自己学习既往诊疗的大量病例，把这些病例的所有

特征或属性综合分析，使机器自己“习得”最佳的

诊疗模型，然后去面对新的患者，在后续使用中，

可根据新的病例继续学习、完善模型，这也是人工

智能的体现

[2-4]

。

机器学习领域旨在开发经验丰富的计算机算法，

其有望使计算机帮助人们分析大型复杂的数据集，

如：肝癌影像学上的序列元素、肝癌的基因测序及表

观遗传学、肝癌蛋白质组学和肝癌代谢组学

[5,6]

。肝

癌诊疗领域常用的机器学习算法包括人工神经网络

（

artificial neural network

，

ANN

）、决策树和支持向量

机

种

[2-9]

。

决策树（

decision tree

）是一个树结构（可以是

二叉树或非二叉树）。其每个非叶节点表示一个特

征属性上的测试，每个分支代表这个特征属性在某

个值域上的输出，而每个叶节点存放一个类别。使

用决策树进行决策的过程是从根节点开始，测试待

分类项中相应的特征属性，并按照其值选择输出分

支，直到到达叶子节点，将叶子节点存放的类别作

为决策结果。决策树的决策过程非常直观，易于理

解。目前决策树已经成功运用于医学、制造产业、

天文学、分子生物学以及商业等诸多领域。

2015

年

Omran

等

[10]

通过

315

例感染

HCV

的慢性肝病患者、

116

例肝硬化患者及

135

例

HCC

患者的临床资料，

构建了预测肝癌患者预后的决策树模型，敏感性为

83.5%

，准确性为

83.3%

，并且通过机器学习的算法

发现了可以独立预测肝癌发生风险的

AFP

临界值，提

示机器学习与临床资料等大数据结合可发挥重要的

预测功能，可辅助影像检查指导诊疗甚至独立预测

肝癌的发生及预后，避免风险较大的有创检查或操

作。

Wang

等

[11]

通过收集

634

例肝癌手术患者的资料，

构建了肝癌肝切除术后患者发生肝衰竭的决策树。

等

[12]

利用决策树算法分析了肝癌患者确诊或治疗

前后不同影像学评估的准确性和费用，选择最佳影

像学检查手段，减轻了患者的经济负担。

2013

年

Cao

等

[13]

对

例肝癌患者术后的血清蛋白质谱训练决策

树，之后用

例同质患者验证决策树的准确率，找

到能够预测肝癌术后肝内复发的血清标记物。

SVM

最早于

1963

年提出，是一种监督学习的分

类方法，以统计学理论中的

维理论以及结构化风

险最小化为基础，引入最优分界面思想及核函数方

法，对输入数据进行训练学习来对分类情况进行建

模，对线性及非线性数据进行有效分类。

SVM

在解

决高维、非线性以及小样本数据分类问题中具有较

大优势。

2012

年

等

[14]

利用

SVM

算法和神经网络对

482

例接受肝癌切除术患者的临床数据资料训练机器

学习模型，用于预测复发和生存，并通过对比不同

模型的

ROC

曲线下面积评估了模型的优缺点。

张朋军等

[15]

对

例早期肝癌患者和

例健康对

照人群的外周血基因数据进行分析，分别用逻辑回

归和人工神经网络构建外周血多参数基因诊断模

型，结果显示人工神经网络的灵敏度和特异度均高

于逻辑回归（

96% vs 94%

；

86% vs 80%

），人工神

经网络在肝癌的预测及早期检测中有更好的诊断

价值。

2017

年

Qin

等

[16]

使用

Illumina

公司甲基化分析

仪

450K Beadchip

对

576

例早期肝癌患者的基因

CpG

甲基化水平进行检测，所得数据采用机器学习中

Lasso

算法及

SVM-RFE

算法（

Lasso

算法用于精简数

据，降低维度；

SVM-RFE

算法即支持向量机递归

特征消除算法），建立了预测早期肝癌复发风险的

甲基化标签。

2018

年

Augello

等

[17]

使用机器学习中

的分类算法发现

MICA

基因的两个单核苷酸多态性

位点

rs2596542

、

rs2596538

及“年龄”可用于肝硬

化和肝癌的鉴别分类。

Chandhary

等

[18]

利用

TCGA

数据中的

360

例

HCC

患者的

RNA

测序、

miRNA

测序

及甲基化数据，构建了一个含有

个隐藏层的多层

人工神经网络模型，确定了

个不同生存期

HCC

患

者的亚群分类。

Liao

等

[19]

对

HCC

患者的

Dishevelled/

EGL-10/Pleckstrin

（

DEP

）结构域（

DEPDC

）蛋白

质超家族进行研究，设计了一种分离

DEPDCs

和非

DEPDCs

的计算方法。首先，检查已知

DEPDC

的

Pfam

数，并使用每个

Pfam

的最长序列构建系统发

育树；随后，提取

DEPDCs

和非

DEPDCs

的

188

维

《中国肝脏病杂志（电子版）》2018年第10卷第3期

·肝细胞癌专题·

（

188D

）和

20D

特征，用随机森林分类器进行了分

类；最后，设计

HCC

及癌旁正常组织中人

DEPDC

表达水平的实验验证方法。结果表明，

DEPDCs

超

家族可分为

类，

188D

和

20D

特征可用于有效区分

两种蛋白质的类型。该研究成功构建了

DEPDCs

的

二元分类器，并通过实验验证了其在人肝癌组织中

[20]

的表达。

Liang

等

使用机器学习结合代谢组学从

HCC

患者的尿液中鉴定了

种

HCC

患者和匹配的健

康对照者有差异的代谢物，涉及几种关键的代谢途

径，其中

种代谢物对

HCC

有诊断价值，灵敏度为

96.5%

，特异度为

83%

。

既往研究利用患者的临床资料，包括性别、年

龄、种族、

HBV/HCV

感染、

Child-Pugh

分级、

TNM

分

期、

BCLC

分期、肿瘤大小、肿瘤数量、癌栓、

ALT/

AST

、胆红素水平、血小板水平、肝纤维化程度和手

术术式等信息训练了许多优秀的决策树模型，这些决

[5-9]

策树模型的准确度为

70%

～

95%

，但由于国内全基

因组测序和全外显子组测序的患者数量尚在积累过程

中，并未有大量数据可用来训练预测模型，故关于我

[21]

国肝癌突变基因预测预后的研究非常少

。

本研究首次利用

HCC

患者的全基因组测序信

息，从高频突变基因出发，预测患者的复发，两种

决策树模型和支持向量机模型的总体准确率均为

77.42%

，但利用

127

个高频突变基因训练的决策树模

型的查全率和查准率均高于

个高频突变基因训练

的决策树和支持向量机模型，所以在临床实践中可

使用决策树

分析患者的基因测序报告，在患者接

受治疗前给予初步的预后预测及复发可能性评估，

为制定个体化的综合治疗方案提供参考和依据；对

于一部分受经济条件限制、不能行全基因组或全外

显子组测序的患者，可根据决策树中的基因进行有

针对性的检测。本研究也存在不足之处：①由于数

据来自

TCGA

，该数据库

HCC

患者的资料无治疗信

息，所以无法评估治疗方案对预后的影响；②目前

除了

TCGA

数据库，国内各肿瘤中心尚未积累如此多

的全基因组测序患者的信息，后续需积累更多中国

HCC

患者的全基因组测序信息，以完善预测复发的

模型；③本研究中各种模型半年以上复发的敏感率

和准确率均较高，但半年以内复发的敏感率和准确

率非常低，考虑和样本量较少、半年内复发影响因

素较多有关，后续将逐渐积累我国

HCC

患者的基因

测序数据，完善半年内复发患者的预测模型。

参考文献

[1]

[2]

[3]

[4]

[5]

[6]

刘秀红

赵一鸣

赵晓飞

等

肝细胞癌诊断与治疗研究进展

[J/CD].

中国肝脏病杂志

(

电子版

),2017,9(2):20-25.

Vijay Kotu, Bala Deshpande.

预测分析与数据挖掘

[M].

北京

人民邮

电出版社

,2018:52-72.

周志华

机器学习

[M].

北京

清华大学出版社

,2016:73-95.

麻书琴

. Relief

特征选择与混合核

SVM

在疾病诊断中的研究

[D].

太

原

太原理工大学

,2017.

Giger ML. Machine learning in medical imaging[J]. J Am Coll

Radiol,2018,15(3 Pt B):512-520.

Cao C, Liu F, Tan H, et al. Deep learning and its applications in

biomedicine[J]. Genomics Proteomics Bioinformatics,2018,16(1):17-

32.

Lee JG, Jun S, Cho YW, et al. Deep learning in medical imaging:

general overview[J]. Korean J Radiol,2017,18(4):570-584.

Li S, Jiang H, Pang W. Joint multiple fully connected convolutional

neural network with extreme learning machine for hepatocellular

carcinoma nuclei grading[J]. Comput Biol Med,2017,84:156-167.

Pang W, Jiang H, Li S. Sparse contribution feature selection and

classifiers optimized by concave-convex variation for HCC image

recognition[J]. Biomed Res Int,2017,2017:9718386.

Omran DA, Awad AH, Mabrouk MA, et al. Application of data mining

techniques to explore predictors of HCC in Egyptian patients with HCV-

related chronic liver disease[J]. Asian Pac J Cancer Prev,2015,16(1):381-385.

Wang XQ, Liu Z, Lv WP, et al. Safety validation of decision trees for

hepatocellular carcinoma[J]. World J Gastroenterol,2015,21(31):9394-

9402.

He X, Wu J, Holtorf AP. Health economic assessment of Gd-EOB-

DTPA MRI versus ECCM-MRI and multi-detector CT for diagnosis of

hepatocellular carcinoma in China[J]. PLoS One,2018,13(1):e0191095.

Cao XL, Li H, Yu XL, et al. Predicting early intrahepatic recurrence of

hepatocellular carcinoma after microwave ablation using SELDI-TOF

proteomic signature[J]. PLoS One,2013,8(12):e82448.

Ho WH, Lee KT, Chen HY, et al. Disease-free survival after hepatic

resection in hepatocellular carcinoma patients: a prediction approach

using artificial neural network[J]. PLoS One,2012,7(1):e29179.

张朋军

田亚平

外周血多参数基因诊断模型对于原发性肝细胞癌

诊断价值的评价

[J]

标记免疫分析与临床

,2014,21(5):499-502.

Qiu J, Peng B, Tang Y, et al. CpG methylation signature predicts

recurrence in early-stage hepatocellular carcinoma: results from a

multicenter study[J]. J Clin Oncol,2017,35(7):734-742.

Augello G, Balasus D, Fusilli C, et al. Association between MICA

gene variants and the risk of hepatitis C virus-induced hepatocellular

cancer in a Sicilian population sample[J]. OMICS,2018,22(4):274-282.

Chaudhary K, Poirion OB, Lu L, et al. Deep learning-based multi-

omics integration robustly predicts survival in liver cancer[J]. Clin

Cancer Res,2018,24(6):1248-1259.

Liao Z, Wang X, Zeng Y, et al. Identification of DEP domain-

containing proteins by a machine learning method and experimental

analysis of their expression in human HCC tissues[J]. Sci

Rep,2016,6:39655.

Liang Q, Liu H, Wang C, et al. Phenotypic characterization analysis

of human hepatocarcinoma by urine metabolomics approach[J]. Sci

Rep,2016,6:19763.

Libbrecht MW, Noble WS. Machine learning applications in genetics

and genomics[J]. Nat Rev Genet,2015,16(6):321-332.

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

收稿日期：2018-04-28

祁亮

沈洁

TCGA数据库基因突变信息结合机器学习软件RapidMiner构建肝细胞癌患者复发模型

[J/CD].

中国肝脏病杂

志

(

电子版

), 2018,10(3):13-19.

本文标签：患者基因肝癌模型预测

版权声明：本文标题：TCGA数据库基因突变信息结合机器学习软件RapidMiner构建肝细胞癌患者复内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1714524002a683790.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

TCGA数据库基因突变信息结合机器学习软件RapidMiner构建肝细胞癌患者复

更多相关文章

【AIGC】Visual ChatGPT 视觉模型深度解析

[算法前沿]--002-ChatGPT对安全的影响和开源的LLM大模型资源汇总

【GitHub项目推荐--开源翻译模型】【转载】

【gpt_academic】最优秀的学术大模型应用（github 60.8k⭐）

中文大模型基准测评2024年10月报告

51c大模型~合集81

OpenAI掀桌子！免费版ChatGPT，提供o3-mini模型！

下载HuggingFace模型和数据集（免翻墙）

制作一个类似ChatGPT的AI对话网站，模型能力使用ChatGPT

2024大模型书籍推荐，外网爆火的《基于ChatGPT、GPT-4等Transformer架构的自然语言处理》（附pdf）

重构大模型磁力，要在豆包身上找答案

行业动态 | 2024 中国「+ 大模型」先锋案例 TOP 10 发布

[转]SCOR模型分析-供应链运作参考模型

DeepSeek与ChatGPT：AI语言模型的全面对决

《DeepSeek R1 人工智能大模型最简安装步骤》：此文为AI自动生成

pytorch深度学习框架-训练模型时GPU占用率太低怎么办？如何尽量榨干我们的GPU性能？

最新-DeepSeek模型安装Page Assist浏览器插件实现Web UI界面

AI大模型 DeepSeek VS ChatGPT VS Claude：分别适合什么场景使用？（理论篇）

国产人工智能语言大模型相关网站

计算机网络第1章（下）：网络性能指标与分层模型全面解析

发表评论

推荐文章

javascript - How to set click event on all div with same class - Stack Overflow

javascript - Adding favicon in next js react project - Stack Overflow

unit testing - Can one set a timeout in tool Tessy - Stack Overflow

Ubuntu设置、非C盘安装及重装

使用Rsync在Windows系统下进行系统运维

热门文章

javascript - Access child Object in js - Stack Overflow

WinCC中通过脚本禁用或启用Windows快捷键

excel - Automation error due to 1000+ workbooks opened and closed - Stack Overflow

javascript - VueJS perform math function on specific set of inputs - Stack Overflow

[路由器]IP-MAC的绑定与取消

windows设置断电重启开机后自动输入锁屏密码登录

Ubuntu系统U盘启动盘制作工具（Rufus）

在VMware虚拟机中安装Windows 7全攻略（避坑指南）

【VBAword】在word文档上每一页插入图片插入画笔线条

windows拷贝文件到linux后中文文件名显示乱码

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

【免费下载】 重温经典：MSDN原版Windows 7 with SP1各版本下载推荐

【免费下载】 大神U盘工具（Win10PE）UEFI纯净版启动盘制作工具

【免费下载】 重温经典：Windows 98原版系统镜像下载资源推荐

Windows系统更新，显示Windows启动管理器，进去后为重装系统界面的解决方法。

win11登录密码忘记了？别慌！无需重装系统，一个U盘轻松移除！

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

【免费下载】重温经典：MSDN原版Windows 7 with SP1各版本下载推荐

【免费下载】大神U盘工具（Win10PE）UEFI纯净版启动盘制作工具

【免费下载】重温经典：Windows 98原版系统镜像下载资源推荐