1) 生物信息学: 生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,
分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2) 人类基因组计划: 是由美国科学家于1985年率先提出,于1990年正式启动的,宗旨
在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
3) 基因芯片: 又称DNA阵列或DNA芯片是一块带有DNA微阵列(micorarray)的特殊玻
璃片或硅芯片片,在数平方厘米之面积上布放数千或数万个核酸探针;检体中的DNA、cDNA、RNA等与探针结合后,借由荧光或电流等方式侦测。
4) 中心法则: 是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信
息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。
5) 一级数据库: 一级数据库主要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结
构等信息。数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。 名词辨析
1) 信息技术与生物信息学 :信息技术是研究信息的获取、传输和处理的技术,由计
算机技术、通信技术、微电子技术结合而成,即是利用计算机进行信息处理,利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。生物信息学是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2) 基因与基因组 :基因是指具有遗传效应的DNA片段。而基因组指的是单倍体细胞中的
全套染色体,或是单倍体细胞中的全部基因。
3) 相似性与同源性 :相似性是指不同染色体之间基因序列的相似或相异程度。同源性是
指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。 4) Blastn与Tblastn :blastn方法是用检测序列核酸搜索核酸序列数据库,它适合寻找
分值较高的匹配,不适合远源关系。而tblastn是用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。它适合寻找数据库中尚未标注的编码区。 5) CDS与cDNA :CDS是内容分发服务的缩写,内容分发服务是互联网的一项新技术。与
RNA链互补的单链DNA,以其RNA为模板,在适当引物的存在下,由RNA与DNA进行一定条件下合成的,就是cDNA。 6) 直系同源与旁系同源 :直系同源指的是不同物种之间的同源性,例如蛋白质的同源
性,DNA序列的同源性。旁系同源是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。
7) 敏感性与特异性 :昆虫对某些低剂量的化学物质或其他物理因子能迅速地引起反应的
特性。特异性是指成对、成组对象相互之间的必然对应选择关系。
8) 序列相似性比较与序列同源性分析 :序列相似性比较就是将待研究序列与DNA或蛋白
质序列进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等。序列同源性分析是将待研究序列加入到与之同源但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。这是理论分析中最关键的一步。完成之一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等。
9) 数据库搜索和数据库查询 :数据库搜索在生物信息学中有特定的含义,它是指通过特
定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。而所谓数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。数据库查询有时也称为数据库检索,它和互联网上通过搜索引擎查找需要的信息是一个概念。 简答题
1) 生物信息学数据库的组成包括哪些部分?数据库有哪些类型?
答:生物信息学数据库的组成包括一级数据库和二级数据库。数据库的类型包括核算和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库、以上述3类数据库和文献资料为基础构建的二次数据库。 2) 简要介绍 GenBank中的DNA序列格式。
答:GenBank中的DNA序列格式可以分成三个部分,第一部分为描述符,从第一行LOCUS行到ORIGIN行,包含了关于整个记录的信息;第二部分为特性表,从FEATURES行开始,包含了注释这一纪录的特性,是条目的核心,中间使用一批关键字;第三部分是核苷酸序列的本身。
3) 简要介绍FASTA序列格式
答:在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。 4) 生物信息学数据库的要求和基本特征是什么?
5) 生物信息学的基本方法有哪些?
答:1. 建立生物数据库:核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)等;
2. 数据库检索:如Blast等;
3. 序列分析:序列对位排列、同源比较、进化分析等;
4. 统计模型:如隐马尔可夫模型(hidden Markov model, HMM)――基因识别、药物设计;最大似然模型(maximun likelihood model, ML)、 最大简约法(Maximun Parsimony, MP)――分子进化分析等;
5. 算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)等。 6) 生物信息学的目标和任务?
答:收集和管理生物分子数据;数据分析和挖掘;开发分析工具和实用软件:生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。 7) 生物信息学主要研究内容。
答:(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较 ;(3)基因组序列分析;(4)基因表达数据的分析与处理 ;(5)蛋白质结构预测。 8) 为什么要构建生物分子数据库。
答:(1)生物分子数据高速增长 (2)分子生物学及相关领域研究人员迅速获得最新实验数据。
9) 预测基因的一般步骤是什么?
1. 在DNA序列中索索重复序列
对序列做同源性检索 构建基因模型
揭示潜在基因的启动子信号与转录因子结合位点 PolyA位点的预测
装配外显子和翻译编码区 分析弱相似性序列,通过实验和蛋白质二级结构及功能模体来验证预测结果的真实性。
10) 生物信息学所用的方法和技术。
答(1)数学统计方法;(2)动态规划方法 ;(3)机器学习与模式识别技术 ;(4)数据库技术及数据挖掘 ;(5)人工神经网络技术;(6)专家系统 ;(7)分子模型化技术;(8)量子力学和分子力学计算 ;(9)生物分子的计算机模拟;(10)因特网(Internet)技术。
11) 国际上权威的核酸序列数据库有那些?
答:(1)欧洲分子生物学实验室的EMBL 。(2)美国生物技术信息中心的GenBank。(3)日本遗传研究所的DDBJ。
12) 生物信息学在基因芯片中的应用有哪些?
答:(1)确定芯片检测目标。(2)芯片设计。(3)实验数据管理与分析。 13) 生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?
答:其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。 14) 基因芯片对于生物分子信息检测的作用和意义?
答:在生命科学领域中,基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗传过程中的规律。
15) 在基因组序列分析方面,科学家关注哪些信息?
答:就人类基因组而言,编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等。 16) 为什么要进行序列片段组装?在进行序列片段组装时会遇到哪些问题?
答:大规模基因组测序得到待测序列的一系列序列片段,这些序列片段覆盖待测序列,序列片段之间也存在着相互覆盖或者重叠。遇到的问题:碱基标识错误;不知道片段的方向;存在重复区域;缺少覆盖。 17) 序列分析的任务和目的分别是什么?
答:任务:(1)发现序列之间的相似性;(2)辨别序列之间的差异。
目的:(1)相似序列:相似的结构,相似的功能 (2)判别序列之间的同源性(3)推测序列之间的进化关系 18) PCR引物设计有哪些原则?
1. 引物应用核酸系列保守区内设计并具有特异性。 2.产物不能形成二级结构。
2. 3. 4. 5. 6. 7.
3. 引物长度一般在15~30碱基之间。 4. G+C含量在40%~60%之间。 5. 碱基要随机分布。
6. 引物自身不能有连续4个碱基的互补。 7. 引物之间不能有连续4个碱基的互补。 8. 引物5′端可以修饰。 9. 引物3′端不可修饰。
10. 引物3′端要避开密码子的第3位。
19) 生物分子数据类型有哪些?答案:DNA序列数据、蛋白质序列数据、生物分子结构数
据、生物分子功能数据、
20) 基因识别:答案:基因识别,是生物信息学的一个重要分支,使用生物学实验或
计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和因子。 简答题
1) 生物信息学研究意义?
答: (1)认识生物本质。了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。
(2)改变生物学的研究方式 。改变传统研究方式,引进现代信息学方法
(3)在医学上的重要意义。为疾病的诊断和治疗提供依据,为设计新药提供依据 2) DNA双螺旋结构模型的意义 答:(1) 为合理解释遗传物质的各种功能、解释生物的遗传和变异、揭示自然界色彩纷纭的生命现象奠定了理论基础;
(2) 揭示了生命世界多样性和生命本质的一致性的辨正统一; (3) 现代生命科学的里程碑。
3) 什么是序列比对?及其基本分类?
答:序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法。
序列比对的分类:A、 双序列比对:两条序列的比对。B、 多序列比对:三条或以上序列的比对 论述题
1) 简述人类基因组计划与生物信息学之间的相互促进关系。
答:人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3×109个碱基对(bp,base pair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。
随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。值得庆幸的是,人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信
息学的研究和应用提供了非常好的支撑。生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学在最近10年迅速发展的历程证明了这一点。
2) 生物序列相似性搜索的blast程序包括那些版本?各自有何区别?介绍各自的分析过
程。
答:网络版 包括NCBI在内的很多网站都提供了在线的blast服务,这也是最经常用到的blast服务。网络版本的blast服务有方便,容易操作,数据库同步更新等优点。但是缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库。
单机版 单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。
网络版分析过程:1.登陆blast主页2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果
单机版分析过程:1.下载单机版的Blast程序2.解压程序包3.获取Blast数据库4.执行Blast对比
3) 掌握蛋白质结构有什么意义?为什么要进行蛋白质结构预测? 答:(1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。
(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务