Skip to content

Latest commit

 

History

History
7 lines (6 loc) · 6.46 KB

生物信息学的历史.md

File metadata and controls

7 lines (6 loc) · 6.46 KB

生物信息学的历史 生物信息学的发展历史和最近 60 年里分子生物学、计算机科学的发展紧密关联,5060 年代,分子生物学的黄金时代,也是计算机领域重要概念和软硬件形成的阶段。 7080 年代,分子生物学、计算机、互联网的发展日趋成熟。 90 年代至今,这两个领域飞速发展。分子生物学简史11953 年,Watson 和 Crick 关于 DNA 双螺旋结构的发现,奠定了 DNA 作为遗传信息物质基础的地位;上世纪 50 年代,第一个蛋白的序列和蛋白结构被成功解析。随后 10 年,多种蛋白被依次测序。早时,以蛋白测序而不是 DNA 测序为主。
历史以来,对生物进化的研究还停留在化石阶段。此时以 Linus Pauling 为代表的人们意识到:可以从分子水平,根据同一家族不同蛋白质序列研究生物的演化(提出了分子钟的概念)。
31977 年,Sanger 的 DNA 测序提出。 由于效率远高于蛋白测序,随后的 20 年里,大量 DNA 被成功测序;
41988 年,主要由美国能源部和 NIH (National Institutes of Health) 领导,英、法、德、日、中 5 国共同参与的人类基因组计划启动;
还包括模式生物的测序、高通量测序技术的开发。人类基因组计划为生物信息学提供了大量的数据,生物信息学实现了对数据的分析。
51991 年, 诺奖得主 Walter Gilbert 在一篇短文中呼吁,人的基因组测序完成后,生命科学的研究方式应该有所转变——从基因组水平(不再是单基因水平)提出假设,再到实验验证;
61995 年,Craig Venter 用鸟枪测序法实现了第一个自由生活生物——流感嗜血杆菌的基因组测定。随后 5 年,大肠杆菌、酵母、线虫、果蝇的基因组依次被测定;
72001 年,人类基因组草图发表;
82004 年,人类基因组完成图发表
92005 年,以 Illumina HiSeq 为代表的新一代测序技术被发明并越来越得到广泛的应用。

计算机科学简史 11945 年,第一台电子计算机 ENIAC 被发明,仅为军方和政府部门提供服务;
21955 年左右,商业计算机实现量产。同时,计算机语法理论逐渐完善、以 FORTRAN 为代表的高级语言出现;
31962 年,Shannon 的**《信息论》发表**;
41969 年,Internet 的雏形——ARPANET 建立。实现了 Stanford、UCLA、UC Santa Barbara 和 Utah 大学的连接;
520 世纪 70 年代,E-mail 被发明、TCP 协议被 Vint Cerf 等制定;
620 世纪 80 年代,以 IBM 为代表的个人计算机进入千家万户,实现了计算机的普及
71991 年,万维网的 HTTP 协议被建立;
81991 年,生物信息学研究所需的 Linux 系统被开发
**
生物信息学简史
11951 年,用计算机的
傅里叶变换解析了肌红蛋白的结构**。随后的 20 年里,大量的蛋白结构被依次解析;
21962 年,Margaret Dayhoff 开发的 COMPROTEIN 程序实现蛋白序列片段的组合(此前,蛋白质的组合需要多位生化专家的共同研讨);
31965 年,Margaret Dayhoff 建立了第一个纸质数据库——Atlas of Protein Structures and Sequences。该库于 1983 年演变成电子数据库——PIR (Protein Information Resource),之后又被蛋白质数据库 UniProt 取代;
41966 年,Margaret Dayhoff 意识到:可基于同一家族的蛋白构建生物的演化史。在 Science 上发表了 Ferredoxin 序列的家族演化分析文章;
51967 年,Walter Fitch 和 Emanuel Margoliash 提出了系统发育树构建的方法,并附有相应程序;
61970 年,“bioinformatics”一词出现,定义为“对生物系统的信息过程的研究”。先驱们做的都是简单而概念性的工作;
71974 年,Chou 和 Fasman 提出二级结构预测法
81977 年, 蛋白三维结构数据库 PDD 建立。人们开始认识到,蛋白质会自然形成相对稳定的结构(无序区间/相对固定的结构);
91970 年, Saul Needleman 和 Christian Wunsch 开发了 Needleman-Wunsch 全局比对算法,用动态规划的方法快速找到序列间的最优匹配。这对序列比对(甚至是远缘物种的比对)分析是很有意义的;
1070 年代末,为了评估参与比对的氨基酸是否在结构上合适,Margaret Dayhoff 发明了 PAM 矩阵,用来评估氨基酸替换矩阵。1992 年又提出 BLOSUM 矩阵
同源蛋白序列中,脯氨酸的引入往往是小概率的。
111981 年,Temple Smith 和 Michael Waterman 开发了 Smith-Waterman 局部比对算法,能够找到两个序列间的最优局部片段的比对,而忽略内含子 (intron);
当时内含子的发现,认为 Needleman-Wunsch 全局比对产生的突变率即便很高也可能是无意义的。
121982 年,核酸序列数据库 GenBank 建立,随后其中的数据量实现指数增长;
1380 年代末,随着已测序的蛋白和基因的序列越来越多,研究者想能从已知序列中找到相似序列指导研究,于是用 Smith-Waterman 局部比对算法完成;
1490 年代,以 EST 和芯片技术为代表的研究基因表达的高通量技术高速发展,产生了一系列芯片基因表达的相关研究;
1590 年代末,为了解决 Smith-Waterman 算法低效的问题,Stephen Altschul 和 David Lipman 等人发表了 BLAST 算法
161997 年,又发表了允许有插入的 Gapped BLAST 算法和运用多序列比对的 PSI-BLAST 算法。解决了在序列数据库里找与目标序列最相似序列的方法;
171997年 Christopher Burge 和 Samuel Karlin 发表的基因预测方法 Genscan 可以实现从基因组预测基因;
182002 年,UC Santa Cruz 的 Jim Kent 发表了 Blat 算法,能够快速在基因组上定位目标序列,之后又实现了基因组相似性的比较——全基因组比对;
192005 年,新一代测序技术被发明;
202007 年,专用于存储新一代测序技术的 SRA 数据库建立。随后越来越多的研究围绕新一代测序展开。
生物信息学对生命科学的贡献显而易见,对计算机科学的贡献也很丰富(而不仅仅是利用)——神经网络、遗传编程、BLAST 与互联网路由等。