admin 管理员组

文章数量: 1086019


2024年3月13日发(作者:eclipse2020版本)

生工类 1301-3《生物信息学》考试说明

时间:第 17 周周五(6 月 17 日)上午 3-4 节

地点:厚学 201

题型:(开卷)名词解释 5 题 20 分,单项选择题 10 题 20 分,综合分析题 4 题 60 分。 重点:

可参考以下课后题

 2.2 何为一级数据库?有哪些一级数据库?

一级数据库属于档案数据库,库中的主要内容是来源于实验室操作所得到的原始数

据结果;一级数据库:核酸序列数据库GenBank、EMBL、DDBJ及蛋白质数据库

PDB(protein data bank)。

 2.3 二级数据库、三级数据库等是指什么样的数据库?

二级数据库是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的

注释而构成的。例如,NCBI的RefSeq数据库,其mRNA 序列式综合了GenBank

中来源于同一物种相同基因的所有Mrna序列信息的一致性序列;而公共数据库中

大多数的蛋白质序列是将核苷酸序列中的编码序列区域进行蛋白质翻译后,通过后

续的一些计算分析,主观的人为地为序列加上蛋白质产物名称及功能注释。

三级数据库:参考书本P16页

 2.6 请查阅资料,了解序列信息的标准数据存放格式:FASTA、

NBRF/PIR、GDE 和Raw。

书10页到11页

 2.8 GenBank 数据库中的 GenBank 条目包含哪些内容?请结合

GenBank 中的一条具 体的序列信息加以说明。

书17页到19页

 2.12 蛋白质序列数据库有哪些?

书22页

 2.13 Uniprot 数据库分哪几个层次?

书22页,分为三个层次。

一是Uniprot Knowledgebase(Uniprot KB)它涵盖大量人工注释的蛋白质信息,

包括功能、分类以及数据库的交叉引用等;

二是Uniprot Archive(Uniparc)力图收集最完整、最全面的蛋白质序列数据,

不过数据没有加以注释整理,只给出了相关序列的来源;

三是Uniprot Reference Clusters(UniRef),是将UniParc中的序列数据依据不

同的参数条件去除冗余后得到的结果。

 2.14 UniProtKB/SwissProt 和 UniProtKB/TrEMBL 有何关联?

书23页

SwissProt提供了最全面和可靠的注释信息,被称为是蛋白质序列数据的“黄金标

1

准”;TrEMBL是为了在不降低SwissProt高水平注释质量的同时,又能使经由测

序和翻译获取的蛋白质序列数据得以尽快地发布,作为SwissProt数据库的补充。

 3.1 序列比对在什么情况下选择核苷酸序列?在什么情况选择蛋白

质序列?

书51页

核苷酸序列:在确认给定DNA序列和DNA数据库中的序列的一致性时。在搜索多

态性时。在分析所克隆的cDNA片段的一致性时。

蛋白质序列:由于蛋白质序列比DNA所含信息多,所以除以上情况外用蛋白质序

列。

 3.2 请比较同源性、相似性和一致性三个概念。

书51页到53页

同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中

推断出的两个基因在进化上具有共同祖先的结论,是质的判断。

一致性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。

相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的

度量。

 3.4 在进化过程中,两条同源蛋白质序列之间会产生分歧的突变有

哪些?

书P54

替换、插入、删除

替换:发生于一个突变导致的一种氨基酸的密码子变成另一种氨基酸的密码子时,

在比对结果中显示为同一位置上出现两个不同的氨基酸。

插入和删除:发生于残基添加或消除时,比对中由一单点表示(.),加在一条或另

一条序列中。插入和删除(即使只有一个字符长度)都被认为是比对中的空位

 3.13 查阅资料了解 BLAST 比对程序家族的主要程序,如何选择?

2

 3.15 如何寻找远缘相关的蛋白质?

PSI-BLAST是位点特异性迭代BLAST,用来寻找远缘相关的蛋白质序列,对于蛋白

质的相似序列的寻找比常规blastp更敏感。

PSI-BLAST工具的比对步骤为:

(1)用blastp在目标数据库中进行比对搜索;

(2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性

矩阵PSSM;

(3)用第二步获得的PSSM矩阵再一次搜索目标数据库;

(4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执

行2~4步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新

的结果出现时,可以停止比对循环。

 3.16 如何利用 BLAST 来发现新基因?

(1)用一个已知序列蛋白质开始TBLAST比对,搜索一个DNA数据库;

(2)检查结果:寻找与已知蛋白质,相关蛋白质的DNA序列匹配,非显著序列的

匹配;

(3)进行BLASTX NR或BLASTP NR比对

(4)用你新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个

新的基因或蛋白质。

 4.3 什么是外显子?什么是内含子?

外显子:是真核生物基因的一部分,他在剪接后仍会被保存下来,并可在蛋白质生

物合成过程中被表达为蛋白质。

内含子:是一个基因中非编码DNA片段,他分开相邻的外显子。内含子是阻断基

因线性表达的序列。

3

 4.6 基因预测方法有哪些?

书本P107

基于表达数据的基因预测、基于机器学习方法的基因预测

基于表达数据的基因预测方法主要是利用基因产物(包括cDNA、 EST以及蛋白

质等)反推基因结构。

基于机器学习方法的基因预测主要是通过挖掘基因组序列以及各类证据以及各类证

据数据信息中蕴含的基因结构特征,并建立数据模型进行基因结构预测。

 4.7 什么是 EST 序列?如何利用 EST 序列预测基因?

EST:完整mRNA转录物的片段。

把来自不同克隆的EST拼接起来形成完整的cDNA弥补其数量缺少的情况

利用PASA程序软件将聚类的转录物片段(全长cDNA和EST)拼接成最大对比片

段 得到完整地或者部分的基因结构,并获得更多的可变剪切的信息

 5.3 什么是系统发生树?

在研究生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生

物之间的亲缘关系,这种树状分支的图形称为系统发生树。

 5.5 构建系统发生树有哪两类方法?

P131

一类是基于距离的方法,也直接称为基于距离法

另一类是基于字母特征的方法

 5.8 分子系统发生分析常用的软件有哪些?

(1)PHYLIP。(2)PAUP。(3)MEGA。(4)TREE-PUZZLE。(5)MrBayes。

(6)PhyML。

 6.1 提供了蛋白质结构的检索和查询服务的数据库主要有哪些?

PDB数据库 、DSSP数据库、 HSSP数据库 SCOP CATH

 6.2 简要说明四个层次的蛋白质结构。

(一)一级结构

蛋白质的一级结构(primary structure)是指多肽链的氨基酸残基的排列顺序。

(二)二级结构

蛋白质二级结构(secondary structure)是指多肽链主链原子借助于氢键沿一维方

向排列成具有周期性的结构构象,是多肽链局部的空间结构(构象)主要有α螺旋、

β折叠、β转角、无规卷曲等形式

(三)超二级结构、结构域

超二级结构(supersecondary structure)是指相邻的二级结构单元组合在一起,

彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体,同时

充当三级结构的构件,基本形式有α α、 β β、β α β等。

4

(四)三级结构

三级结构(tertiary structure)是指整条多肽链的三维结构,包括骨架和侧链在内

的所有原子的空间排列。

(五)四级结构e

四级结构(quat rnary structure)指在亚基和亚基之间通过疏水作用等次级键结合

成为有序排列的特定的空间结构。

 6.4 PDB 收录了哪些实验类型的结构数据?

X射线晶图谱法,核磁共振法,电子显微镜二维晶体三维结构

 6.6 蛋白质结构家族分类数据库主要有哪些?

SCOP,CATH,FFSP

 6.8 蛋白质结构分析主要包含哪些方面?

组织层次、结构测定及预测,蛋白质折叠

 6.9 如何进行蛋白质结构比对?有那些常用的结构比对工具?

首先对两个蛋白质结构定义结构相似部分(或称共同子结构);然后通过多次迭代

策略来调整共同子结构,直到找出优化的结构比对,即找到两个蛋白质空间上最大

的重叠部分。DALI方法、 CE方法、 STRUCTURAL方法、 SSM方法、 TM-

align方法

 6.13 同源建模方法预测蛋白质结构的基本步骤有哪些?

1、模板的选择

2、待测序列与模板序列的比对

3、同源模型的建立

4、同源模型精修和评估

 7.2 常用的蛋白质序列分析和功能预测方法有哪几类?

书171页

大致分为四类:

1. 基于序列或结构的分析方法(sequence and structure based methods),

又称进化方法,这类方法基于全局或局部序列或者结构上的保守性来预测蛋白质功

能。

2.基于基因组上下文的方法,又称比较基因组方法,分别基于结构融合事件、系统

进化特征谱、保守的基因顺序、表达谱以及共调控等预测蛋白质功能。

3.基于相互作用的方法,又称细胞方法,利用蛋白质相互作用数据预测功能

4.基于过程的方法,又称代谢方法,利用生物化学路径的结构化网络来匹配蛋白质

的非典型反应。

 7.6 基于序列相似性预测蛋白质功能的主要依据是什么?其基本步

5

骤有哪些?

P171

大致分为四类:

1. 基于序列或结构的分析方法(sequence and structure based methods),

又称进化方法,这类方法基于全局或局部序列或者结构上的保守性来预测蛋白质功

能。

2.基于基因组上下文的方法,又称比较基因组方法,分别基于结构融合事件、系统

进化特征谱、保守的基因顺序、表达谱以及共调控等预测蛋白质功能。

3.基于相互作用的方法,又称细胞方法,利用蛋白质相互作用数据预测功能

4.基于过程的方法,又称代谢方法,利用生物化学路径的结构化网络来匹配蛋白质

的非典型反应。

 7.7 已注释的蛋白质序列数据库主要有哪些?

P178

已注释的蛋白质序列数据库有很多,如SwissProt、TrEMBL、NRDB(nr)、

GenPept、PIR-PSD、PIR-NREE、NRL-3D和EXProt等。

 10.8 什么是单核苷酸多态性(SNP)?

指分散于基因组中的单个碱基的差异,包括单个碱基的缺失和插入,但更常见的是

单个核苷酸的替换。

6


本文标签: 序列 蛋白质 结构 方法 数据库