




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
生物信息学简介-Introtobioimf 第一篇:生物信息学简介-Introtobioimf生物信息学简介生物信息学是一门利用计算机技术研究生物系统之规律的学科。它建立在分子生物学的基础之上,并以计算机为工具对生物信息进行存储、检索和分析。其研究重点体现在基因组学和蛋白质组学两个方面,具体来说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是当今自然科学与生命科学的重大前沿科学之一。一、发展历程1866年孟德尔从实验上提出了基因是以生物成分存在的假设,5年以后Miescher从死亡的白细胞核中分离出DNA,1944年Avery和McCarty证明了DNA是生命器官的遗传物质,同年Chargaff发现DNA中鸟嘌呤的量与胞嘧啶的总量总是相等,腺嘌呤与胸腺嘧啶的量相等。同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年JamesWatson和FrancisCrick推测出DNA的双螺旋结构,DNA是以磷酸糖链形成的双股螺旋结构,脱氧核糖上的碱基按Chargaff规律构成的双股磷酸糖链之间的碱基对。这个模型表示DNA具有自身的互补结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。1954年Crick提出了中心法则(Centraldogma),揭示了遗传信息的传递规律,即DNA是合成RNA的模板,RNA又是合成蛋白质的模板,其对分子生物学和生物信息学的法则都起到了极其重要的指导作用。分子生物学揭示了生命科学中的微观世界,对生命科学的发展起了巨大的推动作用。在分子生物学的研究过程中,产生了大量的生物信息数据,对大量生物信息数据的存储检索和分析可以借助计算机,因此分子生物学与计算机科学、数学、信息技术等学科交叉形成的生物信息学成了一种必然的趋势。随着人类基因组工程测序的完成,生物信息学的研究又走向了一个高潮,在DNA自动测序技术的快速发展的推动下,DNA数据库中的核酸序列公共数据量飞速增长迅速膨胀。这使得我们面临着大量数据的组织和存储、检索的困难,而在巨大的数据量往往蕴含着潜在突破性发现的可能。在这种背景下就产生了生物信息学这一交叉学科。简单地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列、结构、演化及其与生物功能之间的关系,其研究设计到分子生物学、分子演化及结构生物学,统计学及计算机科学与技术等诸多领域。二、研究现状简介生物信息学作为一门新兴的交叉学科领域,在短短的二十年的发展过程中,形成了如序列对比、蛋白质结构对比和预测、序列重叠群装配、代谢网络分析等多个研究方向。1.序列对比序列对比(SequenceAlignment)的基本问题是比较两个或者两个以上符号的相似性或者不相似性。序列对比考虑了DNA序列的生物学特性,如局部发生的插入、删除和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐方法包括全局对齐,局部对齐,代沟惩罚等。通常采用的算法有动态规划算法,在序列长度较小的时候动态规划算法适用。然而当基因序列的数据量非常大的时候,这一方法就不太适用,甚至采用线性复杂度的算法也难以凑效。因此在序列对比中引入了启发式算法,如著名的BALST和FASTA算法。2.蛋白质结构对比和预测蛋白质结构对比和预测是比较两个或者两个以上蛋白质分子空间结构的相似性或不相似性。一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。我们可以通过研究蛋白质结构对比和预测:在医药上可以理解生物的功能,寻找dockingdrugs的目标,在农业上可获得更好的农作物的基因,工业上有利于酶的合成。因为蛋白质的3维结构比其一级结构在进化中更稳定的保留,所以直接对蛋白质结构进行比对。蛋白质3维结构研究的有着如下一个假设,既内在的氨基酸序列与3维结构一一对应。蛋白质结构的预测指的是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构,其本质是一个组合优化问题。同源建模(homologymodeling)用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),指认(Threading)则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。3.序列重叠群装配受到现行的测序技术的限制,每次反应只能测出500或更多一些碱基对的序列,如在人类基因的测量过程中就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。这个过程从算法层次来看,序列的重叠群是一个NP-完全问题。4.代谢网络分析(Metaboli

文光****iu
实名认证
内容提供者


最近下载