我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:主页 > 度量空间 >

生物信息学

归档日期:07-04       文本归类:度量空间      文章编辑:爱尚语录

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物

  在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们

  定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin

  Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形

  成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基

  对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的

  DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大

  方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递

  的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心

  法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起

  得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程

  由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每

  天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一

  现的可能,生物信息学正是从这一前提产生的交叉学科.粗略地说,该领域

  的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA

  息的获取,处理,存储,分配和解释.基因组信息学的关键是读懂基因组的核

  功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根

  究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律,解释生命的遗

  两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权

  量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算

  研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking

  drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.

  于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较

  序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢

  完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序

  侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔

  性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.

  Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.

  如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列

  全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直

  不同于这种冻结理论,有人曾分别提出过选择优化,化学和历史等三种学说

  时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采

  用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,噪声

  费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,

  快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因

  microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数

  找数据集的内在结构.其次,机器学习方法中常采用黑箱操作,如神经网络

  (HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质

  时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线

  改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov

  支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计

  Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习

  的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov

  年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验

  达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,

  要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,

  Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数

  挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用

  动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.

  生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入后基因

  组时代,目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在

  不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出

  这个世界上发生的一切事情,都与这一序列息息相关.但要完全破译这一序列

  生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

  目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

  1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?

  生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。

  生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学

  姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。

  原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

本文链接:http://auxloisirs.com/duliangkongjian/492.html