admin 管理员组文章数量: 1086019
2024年5月1日发(作者:android实战开发电子书)
热带亚热带植物学报2011,19(2):184~194
Journd of n Pical and Subtrot)icalBo
基于EST数据库进行SNP分子标记开发的
研究进展及在猕猴桃属植物中的应用研究
周锦 2,刘义飞。,黄宏文
(1.中国科学院武汉植物园,武汉430074;2.中国科学院研究生院,北京100049;
3.中国科学院华南植物园中国科学院植物资源保护与可持续利用重点实验室,广州510650)
摘要:对基于EST数据库开发SNP标记的特点、开发策略等进行了综述,并介绍了在中华猕猴桃复合体(Actmid ̄
chinensis Planch.)中开发EST—SNP的基本思路和初步结果,为后续分子实验验证及其在自然居群中的应用奠定基
础,并为其它相关物种的EST—SNP分子标记开发提供借鉴。
关键词:生物信息学;猕猴桃;遗传多样性;表达序列标签;单核苷酸多态性
中图分类号:Q78 文献标识码:A 文章编号:1005-3395(2011)02—0184-11
doi:10.3969 ̄.issn.1005-3395.201 1.02.014
Progress on Development of EST Derived SNP Markers and Its
Applications in Actinidia chinensis Species Complex
ZHOU Jin ,LIU Y'l-fe?,HUANG Hong—wen
(1.Wuhc ̄Botanical Garden,Chinese Academy ofSciences,Wuhan 430074,China;2.Grduaate University of
Chinese Academy ofSc&nces.Be ̄fmg 100049.China;3.Key Laboratory ofPlant Resources Conservation
Sustcdnable Utilization.South ChinaBotanical Garden,Chinese Academy ofSconces,Guangzhou 510650,China)
Abstract:The advances in characteristics of EST derived SNPs in plants and development strategies were
reviewed,and the preliminary resuks of developing EST—SNPs from Actinidia chinensis complex were introduced.
The potential applications 0f EST—SNPs in kiwifruit population genetic studies were further discussed,and the
development of EST—SNPs in other species was prospected.
Key words:Bioinformatics;Act ̄nidia chinensis;Genetic diversity;EST;SNP
生物物种外在的形态变异和多样化与其内在
的基因组遗传变异息息相关。基因组DNA序列中
一
式生物基因组计划的实施,大量基因组遗传信息的
积累为新一代分子标记的开发应用提供了新的平
个核苷酸的突变便可引起相关基因或遗传位点
台。利用相关基因序列信息发展起来的新型功能
分子标记(Functional Markers,FMs)和目标基因分
功能的改变,并最终导致不同的形态和生态适应
性。传统的基因组随机DNA分子标记(Random
DNA markers,RDMs)技术代表了基因组学分析的
子标记(Gene Targeted Markers,GTMs)与特定基因
位点的功能表达密切相关,被广泛应用于生物物种
的起源、进化以及生态适应性和多样化等研究
中p】。作为研究结构基因组和功能基因组学的桥
梁和工具,不同生物物种的各种表达序列标签
早期阶段,主要用于生物遗传多样性和变异的研究
以及相关遗传和物理图谱的构建等 ]。随着人类
基因组计 ̄lJ(Human Genome Project,HGP)及其它模
收稿日期:2010-08—24 接受日期:2010-10—24
基金项目:国家自然科学基金项目(30900119;30771479);中国科学院重要方向性项H( ̄cx2一Yw—N-061)资助
作者简介:周锦(1984~),男,硕士研究生,从事猕猴桃生物多样性研究,email:zho ̄in08@scbg ac cn
通讯作者Corresponding author,email:huanghw@mail.scbg ac ca
第2期 周锦等:基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应用研究 185
(Expressed Sequence Tags,ESTs)在3大数据库中
研究时往往只需对SNP位点进行+/一的分析,易实
迅速增加,这些EST序列不仅对发现、克隆和定位 现自动化的高通量分析 。最后,相对于传统的分
新基因起到了重要的作用,而且为以PCR技术为 子标记,如AFLP和SSR等,SNP具有高遗传稳定
基础开发各种新型功能分子标记提供了重要的
性和位点丰富等特点 ,其应用范围更加广泛,是
资源 。
第三代分子遗传标记的典型代表 。由于不同
在基于EST数据库发展起来的分子标记中,
SNP位点在染色体上的连续分布,同一染色体上所
单核苷酸多态性分子标记(Single Nucleotide
有SNP位点可作为一个整体或一个单倍型
Polymorphism,SNP)具有位点分布广泛、遗传代表
(Haplotype)进行遗传。基于单倍型的分析比基于单
性和稳定性高且易于实现自动化分析等特点,受到
个SNP分析可提供更多的生物学信息,且在分析
广泛关注。基于表达序列标签发展起来的单核苷
SNP与表型相关性时更为有效 。作为一种新型
酸多态性分子标记(EST—SNP)在遗传图谱构建、重
的功能分子标记,来自表达序列标签的EST—SNP
要性状基因定位、比较遗传作图、遗传多样性分析
除具备传统的SNP标记的优势外,还可能与功能
和品种鉴别、分子标记辅助选择育种等方面发挥了
基因表达有直接或间接的关系,从而强化了SNP
重要作用。目前对基于现有EST数据库信息进行
标记在遗传研究中的应用。同时由于EST—SNP来
相关SNP标记的开发和应用的研究并不多,其潜
自转录区,具有较高的保守性,在比较不同物种基
在的生物信息学方法的应用及标记定位分离技术
因组时非常有利,因而被广泛应用于比较基因组
仍需进一步的探讨。为此,本文介绍了EST—SNP
学、进化基因组学和候选基因的筛选等方面 。
分子标记的特点,以及基于现有的EST数据库资
最近,Rajeev等 引提出,分子标记的定性特征
源在猕猴桃属 ct&id ̄)植物中进行SNP标记开发
(Qualitative nature of data,QNO)也可作为选择的标
的策略分析及初步结果,以期为其它物种的SNP
准之一。QND是由文档记录的便捷性、标记的质
标记开发研究提供借鉴。
量和标记的可重复性3个重要指标综合决定的,其
1 EST—SNP的特点
中文档记录的便捷性和标记的可重复性为两个固
定的指标。相比而言,EST—SNP分子标记这两个固
SNP是指基因组DNA中某一特定核苷酸位置
定指标的评分要高于EST—SSR和EST.AFLP分子
上发生的转换、颠换、插入、缺失等变化,其中任意
标记,表明EST.SNP分子标记在现代居群与进化
一
种等位基因在群体中出现的频率不少于1%『61,
遗传学研究中的优势。
但也有cDNA中频率低于1%的单核苷酸变异 ]。
表达序列标签(Expressed Sequence Tags,EST)是指
2 EST—SNP分子标记的开发策略
通过对cDNA文库随机挑取的克隆进行大规模测
2.1数据库和生物信息学的利用
序所获得的cDNA5 或3 端长度为150~500 bp的
全基因组SNP的开发策略依赖于基因组草图
序列隅】,它代表了特定组织或特定时期基因表达的
搜索法,即通过比较基因组中不同染色体的测序结
特征_9]。随着功能基因组学的飞速发展,出现了以 果发现SNP位点 ,这种开发策略多应用于人
特定EST区段内单个核苷酸变异为基础的分子标 类和其他模式生物中,对其它大多数非模式物种的
记,称之为EST.SNP标记,其主要来自基因组的特
使用仍存在困难。随着美国国立生物技术信息中
定表达序列部分,因而有别于随机基因组SNP
一t ̄,(National Coalition Building Institute,NCBI)、欧洲
位点。 分子生物学实验室(European Molecular Biology
SNP分子标记有无法比拟的优势。首先,单核 Laboratory,EMBL)和日本DNA数据库(DNA Data
苷酸多态性本身是生物遗传变异的根本原因,位于 Bank of Japan,DDBJ)中存储的DNA序列数据的迅
基因内部的SNP可能直接影响相关基因的表达水 速增加,这3大数据库成为寻找SNP新的重要平
平和蛋白质结构,对于研究生物体的形态或性状变
台。这些数据库允许任何机构和个人随时提交各
异以及适应性进化具有先天的优势 ㈦ 。其次,由
种序列,从而导致某一特定区段的数据在数据库中
于SNP位点多呈现二等位基因,在进行基因分型 存在多拷贝,形成不同遗传位点的多态性 ]。采用
186 热带亚热带植物学报 第19卷
生物信息学分析软件,对这些冗余序列进行自动识
别并进行SNP标记位点的发掘利用已经成为一种
是将来自同一个基因或遗传位点上具有重叠部分
的EST整合至单一的簇(c1uster)中。通过聚类和
拼接,可产生较长的一致性序列,降低数据的冗余,
纠正测序错误,用于检测选择性剪切。目前用的最
多的软件是CAP3和Phrap。CAP3是Huang等 剐
开发的一套用于序列拼接的软件,它能应用正反向
信息更正拼接错误并连接重叠群(Contigs);在序列
简单有效且廉价的SNP位点开发的新策略,且可
减少工作的盲目性,省去许多重复测序工作,实现
高效和低成本。
基于数据库和生物信息学手段开发SNP分子
标记的途径主要有两种:一种是基于序列标签位点
(Sequence Tagged Site,STS)和基因组序列的SNP
筛查;另一种是利用已经公布的大量的EST序列
资源进行筛查检测SNP位点 ]。相对EST数据资
源而言,目前已经公布的基因组和STS序列数量
仍然不够,所以EST-SNP是目前基于生物信息学
方法开发SNP标记的主要手段。
目前,从玉米(Zea may)、拟南芥(Arabidopsis
、
水稻(Oryza sativa)、大麦(Hordeum vulgc ̄e)
等植物中已开发了大量EST—SNP口。 。EST.SNP
的开发可以分为3个主要的步骤:第一步是EST数
据的获取与前期处理,从数据库中直接获取的EST
序列往往包含一些低质量的小片段(<100 bp),同
时还带有少量载体序列及末端存在polyA/T“尾巴”
的序列,这会影响到信息的分析,所以开发标记之
前应去除这些“噪音”;第二步是EST数据的聚类
和拼接,用聚类软件对EST序列进行聚类和拼接,
得到多序列聚类簇(Multi-member cluster),用于发
掘单位点的多态性;最后是制定有效的筛选策略,
由于EST测序往往只是进行单次测序,而测序方
法本身固有的局限性使得碱基间测序正确率各不
相同,可能对基于生物信息学的SNP发掘造成干
扰,因此,需要利用有效的判别标准和算法以排除
假阳性位点。
2.2用于EST—SNP分析的软件
EST预处理软件 Cross match是Phil
Green编写的拼接程序包的一部分,用于序列拼接
和比对。它是一款非常好的除去NCBI数据库中
载体序列和一些过长重复序列片段的工具,可以从
http.'//www.phrap.org网址下载。和BLAST相比,
它运行的速度稍慢但是准确性更高。RepeatMasker
软件也可以除去一些重复序列,以提高EST组装
的准确率,可以从http"J/www.repeatmasker.org下
载。这两个软件通常捆绑在一起用于EST序列的
前期处理。
序列拼接聚类软件 聚类和拼接的目的就
拼接中应用读取序列的质量信息自动截去序列5
端和3 端的低质量区域,产生Consed程序可读的
ACE格式拼接结果文件,这款软件适用于小的数据
集或EST的拼接。另一款软件Phrap是Phred—
Phrap—Consed软件包的一部分,Phrap软件用哈密
尔顿通路的拼接算法,产生准确的一致性序列并进
行质量估计,因而具有较高的鉴别和处理重复序列
的能力口 。和CAP3相比,Phrap的运行速度更快,
占用的计算机资源更少,适合大规模数据集或EST
序列的拼接。不过,Phrap软件对序列的敏感性不
如CAP3,在对小规模数据集拼接过程中可能会忽
视序列的微小差异而造成EST的过度拼接 。
SNP分析软件 目前已有许多利用基因组
数据库进行自动分析SNP位点的软件。这些软
件主要有两种类型:一种是针对EST序列测序质
量进行分析,利用碱基判断软件重新分析EST测
序曲线p。。 ”,再用统计学方法区分有效的SNP信
息和随机序列误差及错误,如Phred/Phrap/
PolyBayes程序等。PolyBayes软件 在基因组
序列和峰图文件的支持下能够有效识别旁系同源
基因,减少SNP的假阳性。然而,目前公共数据
库中许多EST序列通常不附加测序曲线,因而
PolyBayes软件的应用具有较大的局限性。另一
种类型是利用序列比对的冗余性进行SNP位点
的发掘,针对公共数据库中大量EST序列相继推
出了无需测序曲线图的EST—SNP开发软件,如
AutoSNP 和SniPpER 等。
AutoSNP是目前使用较多的软件。两条同源
的EST序列在同一碱基位点均出现测序错误的可
能性很小,只要SNP突变碱基在EST数据库中出
现的次数超过1次便可判断假阳性结果。另外,几
个相邻单碱基位点变异所构成的单倍型模块通常
作为一个整体遗传下来,分析几个相邻的SNP位
点是否满足单倍型的要求,作为筛选SNP的一个
标准。通过这两条筛选措施,AutoSNP能够有效地
第2期 周锦等:基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应用研究 187
开发SNP位点,但是无法完全消除旁系同源基因
的关联性分析【42]。另外,新出的Ilulmina芯片技术
的干扰,一些测序错误导致的假阳性SNP也可能 完全有别Affymetrix的原位合成专利技术,用微珠
出现。根据单倍型内SNP的相似系数辨别旁系同 为载体,可以产生高密度的探针分布,特别适合大
源基因或部分同源基因,在AuotSNP软件的策略基 规模的SNP检测,但成本较高。
础上开发出QualitySNP软件口 ,它能有效地排除旁
系同源基因的干扰,并解决测序错误引起的假阳性
3 EST—SNP分子标记的应用
问题。Tang等口 用该软件成功从马铃薯(Solanum
生物进化及多样化与基因组的遗传变异紧密
tuberosum)两个品种161202条EST序列中开发出 相关,同时外在环境的选择作用会对特定基因的进
17745个SNP,用重测序方法验证,有94.3%得到
化方式产生影响 ],对基于编码区标记的基因组扫
确认。
描更容易分析这些特定基因的分子适应过程。
AutoSNP和QualitySNP软件都可以通过建立
Marie等 选择数量性状有差异的白云杉(Picea
自己的数据库和公共数据库相关联,完成基因序列
glauca)6个自然居群,分析了345个表达基因的
的注释工作。用户也可以使用一些常用的注释工
534个EST.SNP位点,通过计算居群间的SNP发
具如BLAST等将拼接而成的一致性序列和公共数
生频率和估计异常值鉴定出自然选择下的候选基
据库已知的非冗余蛋白质数据库(nr)、非冗余核酸
因,并用贝叶斯方法分析位点差异,结果表明这种
数据库(nt)、蛋白质功能结构域(domain)及基序
分离位点和居群影响的分析方法对于鉴定选择压
(motif)等二级数据库进行同源性比对,从而赋予这
力下的候选基因是非常有效的。利用物种间DNA
些一致性序列一定的基因功能信息。
序列尤其是编码序列的保守性 ],通过比较EST-
2.3 EST—SNP位点的验证方法
SNP分子标记在不同物种基因组中的分布,可以揭
用生物信息学方法开发的SNP位点不可避免
示染色体的共线性,从而对不同物种的基因组结构
的有假阳性产生,需要通过其它的实验方法检测之
及基因组演化历程进行精密分析。Jose等 用生
后才能使用。目前SNP的检测分析技术非常多,
物信息学方法,利用SGN数据库中番茄
最直接的方法是进行目标片段测序,也是最具信服
(Lycopersicon esculentum)3个品种的EST数据开
力的标准,但费用较高,不适合批量SNP位点的检
发出SNP标记,并对野生种和栽培种的序列进行
测。传统的检测技术是进行小通量SNP分型测
差异分析,用McDonald—Kreitman分析法 和以密
试,例如酶切扩增多态性序列(Cleaved amplified
码子为基础的最大似然法 分析序列的进化与
polymorphic sequence,CAPS)或dCAPS法p 、单链
适应、自然选择的过程,揭示了一些与野生种的进
构象多态性(single strand conformation polymorphis,
化及栽培种的驯化过程相关的基因和基因家族,为
SSCP)、等位基因特异性PCR(Allele specific PCR,
中性进化学说提供了一些支持的依据。
AS-PCR)p 8]等。这些技术虽然难以实现大规模高
在居群遗传学研究中,利用EST—SNP分子标
通量SNP位点的筛选和自动化检测,但只需常规
记可以分析同源DNA序列的遗传分化程度,进而
的实验试剂和设备,可以较方便快捷地完成少量
了解物种的遗传多样性和系统进化的关系。Gary
SNP位点的检测工作。基于荧光标记的SnaPshot
等 叫用几种主要农作物的350多万条EST开发出
方法、基质辅助激光解吸电离.飞行时间质谱法
十多万个候选SNP位点,并分析比较了不同农作
(MALDI.TOF)p 和高分辨溶解曲线分析(high
物中SNP的分布密度、连锁程度,结果表明异源多
resolution melting,HRM) 都适用于中等通量SNP
倍体小麦(Triticum aestivum)和八倍体甘蔗
位点的检测验证,对设备仪器有不同要求,针对不
(Sacchco-um D∥ 删 )序列的SNP多态性最高,
同的实验条件,可以选择合适的方法加以应用。此 其次是四倍体玉米,二倍体水稻、高梁(Sorghum
外,SNP芯片是一种通量很高的检测SNP的手段,
bicolor)等最低。毛新国等 用生物信息学方法开
一
次可同时检测百万个SNP,是大规模分析的最主
发出1296个小麦SNP,通过比较3个基因组供体
要手段之一【4】]。最新推出的Affymetrix SNP 6.0它
的EST—SNP数量和利用22个基因构建的进化树
可以检测93 1946个SNP,主要应用于大规模人群
进行系统进化分析,结果表明小麦的3个基因组供
188 热带亚热带植物学报 第19卷
体中A、D基因组亲缘关系比较近,而与s基因组
的关系比较远。Schmid等口 利用拟南芥种问的
STS和EST比对发掘SNP,对12份拟南芥材料进
行系统分类学分析,并用邻近归并法(Neighbor—
Joining)构建系统树,揭示了其中两个生态型Cvi—O
与Col-O之间存在较大遗传距离。
植物遗传多样性评价是种质资源保护、开发和
利用的基础,利用分子标记可极大地提高发掘优异
自然种质资源的效率。功能性EST—SNP分子标记
是直接对目标基因区的扩增,有利于对已知功能基
因进行克隆定位 。Feng等 用EST—SNP分子
标记构建了白菜型油菜(Brassia campestris)的连锁
图谱,通过与拟南芥比较,鉴定出控制花期的
BrFLC1和BrFLC2基因,并在早花期亲本系的启动
子中鉴定出3个与BrFLC2基因低表达相关的SNP
位点。Yang等 用番茄(3个品种的EST数据,在
44个基因中发掘了101个候选SNP位点,经检测
证明83%是真实的,将46个SNP定位在染色体的
特定区域,证明2个SNP与果实颜色基因座紧密
连锁。与性状相关基因紧密连锁标记的获得,提高
了育种的选择性与预见性,将加快新品种的选育进
程。Umemoto等I 卅报道水稻编码区的淀粉酶II a
(SSIIa)基因位点存在5个SNPs,其中1个SNP能
引起氨基酸编码的改变,靠近C末端的两个SNPs
能引起氨基酸的变化,可能是引起淀粉酶II a基因
活性改变的关键因素,从而为培育中等直链淀粉含
量的水稻恢复系提供了理论指导。Shu等 用生
物信息学方法将大 ̄.(G!ycine )EST序列联配
到大豆基因组序列上,发掘出EST—SNP位点537
个,有效促进了大豆的遗传育种研究。
4 EST—SNP标记开发前景展望
通过EST数据库开发SNP并不是将来自不同
个体的同源EST进行简单比对找出差异碱基,实
际操作过程中会面临许多问题,需要制定有效的措
施加以解决。构建cDNA文库时,各种反转录酶和
DNA聚合酶会不可避免地引入错配[5 。同时双脱
氧核苷酸终止测序法本身固有的局限性使得同一
读序碱基间测序正确率不同,特别在EST序列两
端测序质量普遍较低。为避免这个问题,需要在筛
选时选择高质量的序列区域的位点进行比对分析。
再比如,在序列比对和拼接过程中,旁系同源基因
(Paralogous gene)容易被错误当成等位基因进行比
对拼接,导致开发的SNP存在假阳性。因此需要
设计相应的算法排除非目标序列的干扰。
大部分开发的EST—SNP位点在二倍体植物中
能够得到有效检测和证实。但自然界中许多重要
植物都包含多倍体,如油菜(Brassica ncqgus)、棉花
(Gossypium hirsutum)、烟草(Nicotic ̄a tabacum)等都
是异源四倍体,普通小麦等是六倍体。二倍体植物
的SNP位点检测方法应用于多倍体植物中可能存
在困难,虽然测序的方法可以鉴定同源多倍体真实
的SNP位点 ,但阵列杂交技术在分析杂合多倍
体时却有很大困难。现在的分型技术无法区分
SNP位点是在异源多倍体染色体之间还是染色体
之内 ]。所以怎样在异源多倍体物种中鉴定SNP
仍然是一个难题。这也是EST—SNP等分子标记在
多倍体植物中应用的瓶颈。
随着生物信息学算法的完善,新的分析SNP
的软件不断产生和成熟,软件和分析策略已不再是
有效开发SNP标记位点的最大制约因素,而大量
相关EST数据库的不断积累和发展便显得更加关
键。大量数据的积累有利于发掘基因组上更多相
关基因本身遗传变异的SNP位点,有助于进行特
异数量遗传性状与个体分子标记的关联性分析,也
叫全基因组扫描(Whole—genome Scaning,WGS)、
全基因组水平的关联性分析(Genome.wide
Association Studies,GWAS)或关联性遗传
(Association Genetics) ”。另外,目前SNP位点的
鉴定和验证技术也在不断发展,SNP芯片等新的高
通量检测技术的出现和发展成熟,将会极大地促进
利用生物信息学方法开发SNP分子标记。据报
道,Affymetrix公司最新开发了1张经过40次测序
验证总共包含11500个人类SNP的测序芯片,而
高密度的水稻SNP芯片也即将问世 ]。可以预
见,大规模基因挖掘和功能鉴定的热潮即将到来,
基于EST数据库开发SNP标记生物信息策略将会
被越来越多地使用。
5猕猴桃属植物开发EST—SNP标记的
可行性分析
猕猴桃属(Actinidia Lind1.)隶属于猕猴桃科
(Actniidiaceae Hutch.),有55种20变种,约75个分
类群 。其栽培品种也比较多,主要是基于中华猕
第2期 周锦等:基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应用研究 189
猴桃 .chinensis)复合体的两个变种,即中华猕猴
从NCBI数据库的中华猕猴桃复合体EST序列进
行SNP分子标记开发的可行性,同时介绍利用
桃( .chinensis VIII7.chinensis)和美味猕猴桃( .
chmensis vat.deliciosa)培育而来。猕猴桃属植物主
要分布在东亚地区,中国为其分布中心,少数种分
布于南亚地区,其目然地理分布广泛,从北纬50。到
赤道附近都有,纵跨泛北极和热带亚热带植物区
系 引。目前,对猕猴桃属植物的基因组信息了解甚
少,许多与重要经济性状相关的遗传位点的遗传方
式仍不清楚 。开发SNP分子标记对于分析猕猴
桃重要特征性状的遗传机制、功能基因的定位和克
Dave的PERL语言程序AutoSNP 2.0筛查猕猴桃
EST数据库中SNP信息的大概思路,为开发新型
猕猴桃EST-SNP分子标记及其应用奠定理论
基础。
5.1中华猕猴桃复合体EST.SNP开发方法及策略
EST序列分析 截至2009年1 1月,NCBI
数据库中共有猕猴桃EST序列132577条,其中中
华猕猴桃有47379条,美味猕猴桃有57751条(表
1),分别占总数的35.74%和43.56%。但无重叠序
列的数量还不到序列总数的五分之一,说明中华猕
猴桃复合体的EST有较高的冗余性,适合进行
EST—SNP分析,为此制定了利用序列冗余性的策
隆以及优异种质资源的发掘和遗传育种等有重要
作用。
目前有关猕猴桃EST数据库的SNP分析的报
道较少,新西兰的Crowhurst等 对猕猴桃进行了
SNP的筛选,但并没有探讨开发的SNP位点的发
生规律、分布特点、碱基变化类型等。本文将探讨
略,用AutoSNP软件来分析中华猕猴桃复合体的
EST序列。
表1 中华猕猴桃复合体EST数量信息
Table 1 Information ofEST database oftheActinidia chinensis species complex
EST—SNP的识别 利用Cross match和
5.2 EST—SNP分析初步结果
5.2.1 SNP的发现
RepeatMasker软件对所有的EST序列进行预处理,
利用D2cluster聚类软件进行原始聚类,参数设置
为“80%similarity”,然后利用CAP3软件组装重叠
群,参数设置为“minmatch 100,overlap similarity
0.97”,即序列比对重叠区域最少要有100个碱基
而且相识度达到97%。Blastx用来帮助处理非冗
余序列数据库,以鉴定不同重叠群的EST序列。
BLASTHITS设置为程序默认参数。AutoSNP软件
是Perl语言程序,会自动分析在D2cluster和CAP3
产生的Fasta或者Ace format格式数据,利用数据
库中序列的冗余性比对差异分析出SNP位点。整
中华猕猴桃复合体的EST序列中含有至少两
条比对序列的片段重叠群共有4060个,涉及的序
列28801条,共发现8886个单核甘酸多态性位点。
而含有至少4条比对序列的重叠群中有4893个
SNP位点,其中含有SNP的重叠群为1272个,占
含至少4条比对序列的重叠群总数的60.3%。
对重叠群中含有的SNP数量的统计结果表
明,构成重叠群的EST序列越多,产生的SNP位点
数量也越多(图1 o这同Chris等 对大麦EST序
列的研究结果基本一致。但是具体每个类型重叠
群所含的SNP位点数并没有明显的规律,这可能
和不同物种的多态性位点分布不同有关。
个开发的流程如下:从NCBI数据库中下载中华猕
猴桃复合体EsT一预处理EST序列一EsT序列拼
接聚类一利用SNP碱基的冗余性和单倍型策略,
兮析SNP位点一候选SNP位点。
利用AutoSNP软件对于真实SNP位点分析判
定标准,在含有较多位点的重叠群类型中可以利用
热带亚热带植物学报 第19卷
墨Ns如
∞s1
对露
.1&∞ z∞懿篷0^v
∞ ∞ ∞ ∞ ∞ ∞ ∞ 舳 m 2 O 8 6 4 2 O
2 3 4
聚类所含序列的数爨Number ofsequences in assembly
图1重叠群中的SNP位点平均数
Fig.1 Average single nucleotide polymorphisms(SNPs)per assembly
A SNP数量占所有重叠群数量的百分比Percen ̄ge of SNP to all assembly;B.SNP数量占含SNP位点重叠群数量的百
分比Percentage of SNP to all assembly w SNPs.
㈣
苹果高,可能是由于中华猕猴桃复合体的多倍化特
性导致旁系同源和部分同源基因的干扰,或重新测
序产生的EST序列质量问题导致的。
为了获得真实度较高的SNP位点,规定至少
有4条EST序列才能形成1个聚类群。聚类和拼
1 9 6
3 7
3 7 8
2 5
相邻SNP位点的单倍型共分离得到一批真实度更
高的位点,SNP数目越多含有的信息量越大 。中
华猕猴桃和美味猕猴桃的EST序列分析表明,聚
类数量较大的重叠群更容易得到真实度较高的
SNP位点。
5_2.2 SNP丰富度
含EST数目大于2的簇(重叠群)的一致性序
列长度共计3101544 bp,中华猕猴桃复合体cDNA
中SNP发生的频率为0.29(100 bp)~。Newcomb
等 报道苹果(Malus domestica)的150000条EST
6 9 2
6 7
接后产生的一致性序列长度为2045019 bp,共有
4893个SNP位点,SNP发生频率为0.24(100 bp)~。
另外从表2可以看出,SNP在EST序列上呈现不
均匀的分布。
5.2-3碱基变化及插入缺失分析
对EST数目大于2的簇中产生的8886碱基突
变类型进行分析,结果表明有50个多等位基因位
O O O
中,SNP发生频率为0.14(100 bp)~。可见,中华猕
猴桃复合体的EST-SNP的发生频率明显比近缘的
表2重叠群所含SNP的数量以及频率
Table 2 The number andfrequency of SNPinthe contigs
第2期 周锦等:基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应用研究 191
点,4259个转换类型,3733个颠换类型(图2)。转
4500
换类型明显高于颠换,这与前人 的研究结果一
C-T G—T
致。转换类型特别是C—T转换发生的频率很高,可
能是由于c(胞嘧啶)常以甲基化的形式存在,脱氨
后即成为胸腺嘧啶(T) ,其它类型的碱基变化的
原因尚不清楚。除了转换和颠换的类型,还有844
个插入和缺失的类型,插入和缺失的发生频率是
0.027(100 bp)~,大约10个碱基突变之中就有1
个插入缺失的变化。
5.2.4基因注释
A—G
C G
A.T
A C
.
厂]
转换Transition 颠换Transiveritoa插入及缺失Indel/I ̄letion
突变类型Mutationtypes
选择至少含有9条比对序列的重叠群中产生
图2碱基突变分析
F .2 Mutation of single nucleotide polymorphisms(SNPs)
的一致性序列(共691条)进行基因注释,把这些
Golgiapparatus
ER
Other cellularcomponents
ExVacellular
 ̄known cellular
Mitochondria
避 蛊
C e11wall
∞ ls算ol 尊 《 0 §Z
Nucleus
3 3 2 2 l l
PIasfid
Ribosome
Plasma membrane
Cytosoi
Other mernlgrarls e
Cholorplast
4
跚 o
Otherqytopl ̄mi' ̄components
Otherfatrdcellularcomponents
0
Receptor binding Or activity
Transcriptionfactoractivity
Othermolecularfunctions
Nucleic acid binding
Kinaseactivity
Unknownmoleculrfaunctions
20.0 400 60.O 80.O
Transortpraaievity
DNA or RNA binding
Nucleotide binding
HydrolaseactiviW
Stuctruralmoleculeactivity
Proteinbinding
Transferaseactivity
Otherbinding
Other ̄lzylTleactivity
’
0 2O.0 40.0 60.0 8O.O
DNA 0rRNAmetabolism
Signallransduction
Transcription
Unknown biological processes
Elcterontransportorenergypathways
Transpoa
Cell organization and biogenesis
Developmental processes
Other biological processes
Protein metabolism
Responsetoabioticorbi0tic stimulus
Responseto stress
Othermetabolicprocesses
Othercellularprocesses
0 2O.0 40.0 60.O 8O.0
百分率Percentage
图3功能分类
Fig.3 Functional categorizaton fior loci
A:细胞成分GO cellular component(N=455);B:生物过程Biological process(N=460);c:分子功能Molecular function =464)
192 热带亚热带植物学报 第19卷
一
致性序列和模式植物拟南芥数据库(TAIR)进行
同源比对,共得到注释信息5018条。这些基因注
释按功能分类可分为细胞成分、生物过程和分子
功能3个部分,图3反映了基因注释的数量和涉
及的基因总数N的百分比。
借助AutoSNP和其它相关生物信息学软件对
中华猕猴桃复合体的EST—SNP分子标记开发进
行初步的可行性分析和研究,成功开发8886个多
态性位点,其中4条以上比对序列产生的高质量
位点4893个,证明在该复合体中进行EST—SNP
标记开发是可行的。同时,对中华猕猴桃复合体
可预测的SNP位点的统计分析表明,SNP位点在
EST序列上呈现不均匀的分布,转换类型高于颠
换,几个相邻的SNP位点组成的单倍型多见于较
大规模的重叠群中,这些为猕猴桃EST。SNP的后
续分子实验验证及其在自然居群中的应用奠定了
基础,并为在其它物种中进行有效EST—SNP分子
标记的开发提供了宝贵的经验和理论指导。
致谢 感谢澳大利亚昆士兰大学的Dave Edwards博士
和美国亚利桑那大学的Michael Shane Barker博士对实验
技术方法的指导。
参考文献
[1]Sunnucks P.Efficent genetic makers for population biology[J].
Trends Ecol Evol,2000,15(5):199—203.
[2]Boguski M S.The turning point in genome research[J].Trend
Biochem Sci,1995,20(8):295-296.
[3]Andersen J R,Berstedt T L Functional markers in plants[J].
Trends Plant Sci,2003,8(11):554—560.
[4]O ien S J,Womack J E,Lyons L A,et a1.Anchored reference
loci ofr comparative genome mapping in manlmals[J1l Nat Genet,
1993,3:103—112.
[5]Hieter P,Boguski M.Functional genomics:It’s all how you read it
[J].Science,1997,278(5338):601—602.
[6]Jia Y Y(贾玉艳),Chen H(陈宏).Molecular genetic marker of
single nucleotide polymorphism and its application[J】.J Yellow
Cattle Sci(黄牛杂志),2003,29(1):42—45.(in Chinese)
[7]Brooker A J.The essence of SNPs[J1l Gene,1999,234(2):177-
186
[8]Luo M(骆蒙),怕J z(贾继增).Progress in expressed sequence
tags(EST)project of plant genome[J].Progr Biochem Biophys
(生物化学与生物物理进展),2001,28:494—497.(in Chinese)
[9】Adams M D,Kelley J M,Goeayne J D,et a1.Complementary DNA
sequencing:Expressed sequence tags and human genome project
[J]l Science,1991,252(5013):1651—1656.
[10]Butcher L M,Davis O S,Craig I W,et a1.Genome wide
quanttiative trait locus association scan of general cognitvie ability
using pooled DNA and 500K sing ̄nucleotide polymorphism
microarrays[J】l Genes Brain Behav,2007,7(4):435~446.
[11]Kiyohara C,Yoshlmasu K Genetic polymorphisms in the
nucleotide excision repair pathway and lung cancer risk:A meta—
ana ̄sis[J1l Inter J Med Sci,2007,4:59—71
[12]Lazarus R,Vercelli D,Palmer L J,et a1.Single nucleotide
polymorphisms in innate immunity genes:Abundant variation and
potential role in complex human disease[J].1mmunol Rev,2002,
190:9—25.
[1 3】Rafalski A.Applications of slag ̄nucleotide polymorphisms in
crop genetics[J].Curr Opin Plant Biol,2002,5(2):94—100.
[14]Marshall B,Leelayuwat C,Degfi-Esposti M et aL New major
.
histocompatibility complex genes[J].Hum Immunol,1993,38
(1):24—29.
[15]Moreno—Vazquez S,Ochoa O E,Faber N,et a1.SNP—based
codominant markers for a recessive gene conferring resistance to
corky root rot(Rhizomonas suberifac ̄ns)in lettuce(Lactuca
sativ [J]Genome,2003,46(6):1059—1069
[16】SalisburyB Pungliya M,Choi J et a1.SNP and haplotype
variation in the human genome[J].Mutation IRes,2003,526:53—61
[17]Kantety R V,Rota M L,Matthews D E,et al Data mining for
simple sequence repeats in expressed sequence tags from barley
,
maize,rice,sorghum and wheat【J].Plant Mol Biok 2002,48:501—
510.
[18]Varshney R Chabane K Hendre P S,et a1.Comparative
assessment of EST-SSR,EST—SNP and AFLP markers for
evaluation of genet ̄diversity and conservation of genet ̄
resources using wild,cultivated and elite barleys[J】.Plant Sci,
2007,173:638—649
[1 9]Suh V J.SNP discovery in associatnig genetic variation with
human disease phenotypes[J1l Mutation Res,2005,573:41—53.
[20]Wang S L,Sha z X,Sonstegard T S,et a1.Quality assessment
parameters for EST—derived SNPs from catfish[J1.BMC Genom,
2008,9(1):450-461.
[2t]Wang J,Zou Q,Guo M Z.Mining SNPs from EST sequences
using tilters and ensemb ̄classifers[J】l Genet Mol Res,201 0,9
f21:820—834
[22]Guryev V,Koudijs M J,Berezikov E,et a1.Genetic variation in the
zebrafmh[J】.Genom Res,2006,16(4):491—497
[23]Barker G,Batley J,Sullivan H O,et a1.Redundancy based detection
of sequence polymorphisms in expressed sequence tag data using
autoSNP[J].Bioinformatics,2003,19:421—422
[24]Useche F J,Gao G,Hanafey M,et a1.High throughput
dientification database storage and allab,sis of SNPs in EST
sequence[J].Genom Inform,2001,12:194—203.
[25]1wata Ujino—lhara T,Yoshlmura K et a1 Cleaved ampfiifed
polymorphic sequence markers in sugi and their locations on a
linkage map[J】l Theor Appl Genet,2001,103:881—895.
[26]Yang L(杨仑),Shen W B(沈文飚),Chen H(陈虹),et al
Developing putative rice SNPs through bioinformatics approaches
[J].Chin J Rice Sci(中国水稻科学),2004.18:185—191.fin
('bineqP、
第2期 周锦等:基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应用研究 193
[27]Chris D,Nikki A,Megan V,et a1.Single nucleotide polymorphism
discovery in barley using autoSNPdb[J].Plant Biotechn J,2009,
7:326—333.
[28]Hnang X,Madan A CAP3:A DNA Sequence assembly program
IJ].Genome Res,1999,9:868—877.
[29】de la Bastide M,McCombie W R.Assembling genomic DNA
sequences with PHRAP[J].Curr Protoc ̄oinform,2007,Chapter
11(Unit11):14.
[30]Brent E,LaDeana Michael C W,et at Basecalling of automated
sequencer traces using Phred I Accuracy Assessment【J1_Genom
Res,1998,8(3):175—185.
【3 1]Brent E,Phil G.Basecalling of automated sequencer traces using
Phred II Error Probab ̄teis[J]l Genom Res,1998,8【3):186-194.
[32]Marth G T,KorfI,YandellM D,et a1.Ageneral approach to single
nucleotide polymorphism discovery『J].Nat Genet,1999,23:452—
456.
[33] D L,Chagne D,Pot D,et a1.Automated SNP detection in
expressed sequencetags:Statsitical considerations and application
to maritkne pine sequences[J].Plant Mol Biol,2004,54:461—470.
[34]Batley J,Barker G O,Sullivan et a1.Mining for single nucleotide
polymorphisms and insertions/deletions in maize expressed
sequence tag data[J].Plant PhysioL 2003,132:84-91.
[35]Kota R,Rudd S,Faclus et a1.Snipping polymorphlsms from
large EST collections in barley(Hordeum vulgate L.)[JJ_Mol Gen
Genom,2003,270:24_33.
[36]Tang J,Vosman B,Voo ̄ips R E,et a1.QualitySNP:Apipeline for
detecting single nucleotide polymorphisms and insertions/deletions
ni EST data from diploid and polyploid species[J].BMC
Bioinform,2006,7:438—443.
[37]Konieczny Ausubel F M.A procedure for mapping Arabidopsis
mutations using co・・dominant ecotype-specific PCR—based markers
[J]l Plant J,1993,4(2):403—410.
[38】Pui-Yan K Single Nueleotide Polymorphisms Methods and
Protocols[M].Totowa,New Jersey,United States:numama Press
Inc.2003:71—84.
[39]Ross P,Hall L,Smirnov I,et a1.rreh levelmuKiplex genotyping by
MALDI-TOF mass spectrometry[J】.Nat Biotechn,1998,16:
l347一l351.
[40】Montgomery J,Wittwer C T,Palais R,et a1.Simultaneous mutation
scanning and genotyping by high-resolution DNA melting analysis
【J】.Nm Protoc,2007,20):59-66.
[41]Nishida N,Koike Tajima et a1.Evaluatnig the performance of
Affymetrix SNP Array 6.0 platform with 400 Japanese individuals
fJ].BMC Genom,2008,9:43卜441.
[42】Fang W Y(方唯意).Progress in high—throughput genotyping of
SNPs….Foreign Med Sci Mol/3iol Fasc([NP['IN学分子生物学
分册),2003,25(6):333-337.(ni Chinese)
[43]Wang Y S(/E ̄生),Huang H w(黄宏文),Wang Y(王瑛).Recent
progress in plant molecular popuhtnin genetics Ij】l I-Iereditas(遗
传),2007,29(10):1 191—1 198.(ni Chinese)
f44]Marie‘ClaireN,JeanB,Nicolas J,et a1.Scanning the genome for
gene single nucleotide polymorphlsms involved in adaptive
population differentiation in white spruce[J】.Mol Eeol,2008,17:
3599-36l3.
[45]Ann—Christnie S.Accessing genetic variation:Genotyping single
nucleotide polymorphisms[J].Nat Rev Genet,2001,2(12):
930-942.
[46]Jimenez-Gomez J M,Mabof J N.Sequence diversicy in three
tomato species:SNPs,markers,and molecular evolution【J].BMC
Plant BioL 2009,9(1):85—96.
[47]McDonald J Kreitman M.Adaptive protein evolution at the Adh
olcus in Drosophila[J].Nature,1991,351(6328):652—654.
4[8]Yang z,Swanson W J.Codon—substitution modeB to detect adaptvie
evolutnin that account for heterogeneous selectvie pressures among
site classes[J]Mol Biol Evol,2002,I9(1):49-57
4[9]Yang Z.Likelihood ratio tests for detecting positvie selection and
application to prhnate lysozyme evolution[J】.Mol13101 Evol,1998,
15f5):568—573.
[50]Gary L,Barker Keith J E.A genome—wide analysis of single
nucleotdie polymorphism diversity in the world’s major cereal
crops[J].Plant Biotechn J,2009,7:318—325.
[51]Man X G(毛新国),Tang J F(汤继凤),Zhou R H(周荣华),et a1.
Wheat cSNP mining based on full-length cDNA sequences[J].
cAta Agron sin(作物学报),2006,32(12):1836-1840.(in Chinese)
[52]Schmid K J,Ranlos—Onsins S,Ringys—Beckstein et a1.A
mukiolcus sequence survey in Arabidopsis thdiana reveals a
genome—wide departure from a neutral model of DNA sequence
polymorphism[J].Genetics,2005,169(3):1601—1615.
[53]Zhao x(赵雪),Xie H(谢华),Ma R c(马荣才).New functional
molecular markers for plants in the ftmctional genomics era[J].
Chin Biotechn(中国生物工程杂志),2007,27(8):104—110.(in
Chinese)
[54]Feng L,Hiroyasu K KiyofumiI,et a1.ABr ̄sica rapalinkage map
ofEST—based SNP markers for identiifcation of candidate genes
controlling flowering tmie and leaf morphological traits[J].DNA
Res,2009.16:311—323.
[55]Yang W C,Bai X D,Kabelka E,et a1.Discovery of single
nucleotide polymorphlsms in Lycopersicon esculentum by
computer aided analysis of expressed sequence tags[J].Mol
Breed,2004,14:21—34.
[56]Umemoto T,Aoki N.Single nucleotaide polymorphlsms in rice
starch synthase II a that alter starch gelatniisation and strach
association of hte enzyme[J].Funct Plant Biol,2005,32(9):763—
768.
[57]Shu Y J(束永俊),Li Y(李勇),Wu N(吴娜),et a1.Minnig and
identiifcation of SNP from EST sequences and convertnin of
CAPS markers in soybean【J].Acta Agron sin(作物学报),2010,
36(4):574—579.(in Chinese)
[58]Picoult—Newberg L,Ideker T E,Pohl M G,et a1.Mining SNPs
from EST databases【j].Genom Res,1999,9:167—174.
[59]Li L,Paulo M J,Strahwald J,et a1.Natrual DNA variation at
candidate loci is associated with potato chip color,tuber strach
194 热带亚热带植物学报 第19卷
content,yield and starch yiedl fJ].Theor hppl Genet,2008,116
l167-l181.
[60]Somers D J,Kirkpatrick R Moniwa M,et a1.Mining single
nucleotide polymorphisms from hexaploid wheat ESTs[J].
Genome,2003,46:431-437.
[61]McCarthy M I,Abecasis G R,Cardon L R et a1.Genome—wide
association studies for complex traits:Consensus,tmcertainty and
challenges….Nat Rev Genet,2008,9(5):356-369.
[62]Li J Q,Li X W,Soejarto D D.Actniidiaceae[M]II Wu Z Y,Raven
P Hong D et a1.Flora of China.Vo1.12(I ̄ppocastanaceae
through Theaceae).Beijing:Science Press,St.Louis:Missouri
Botnaical Garden Press,2007:334-360.
[63】I-hang H w(黄宏文),Gong J J(龚俊杰),Wang S M(王圣梅),et
a1.Genetic diversi【yinthe genusActinidia[J].ChinBiodiv(生物多
样性),2000,8(1):1-12.(ni Chinese)
[64]Ferguson A Huang H W.Genetic resources of kiwifruit:
Domestication and breeding[J].Hort Rev,2007,33:1—121.
[65]RossN C,Andrew P G,Elspeth AM,et ak Ana ̄sis of expressed
sequence tags fromActinidia:Applciations of a cross species EST
database for gene discovery in the areas of flavor,health,cobr
and ripening[J].BMC Genom,2008,9:35卜377.
[66]Sa ̄bury B Pungliya M,Choi J et al SNP and haplotype
variationinthe human genome[J】.MutatRes,2003,526:53—61.
[67]Newcomb R D,Crowhurst R N,Gleave A P,et al Analyses of
expressed sequence tags from apple[J]_Plant Physiel,2006,141
(11:147—166.
[68]Garg Green P,Nickerson D A ldentiifcation of candidate
coding region single nucleotdie polymorphisms in 165 human
genes using assembled expressed sequence tags[J].Genome Res,
1999,9:1087—1092.
[69]Deutsch S,Iseli C,Bucher P,et a1.A cSNP map and database for
human chromosome 21[J].GenomeRes,2001,11:300—307.
【70]Coulondre C,Miller J Farabaugh P J,et al Molecular basis of
base substitution hot spots in Escherk:hia coil[J].Nature,1978,
274:775_780
版权声明:本文标题:基于EST数据库进行SNP分子标记开发的研究进展及在猕猴桃属植物中的应 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1714512425a683251.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论