维普资讯 http://www.cqvip.com 植物学通报2OO3,20(4):462~468 a 成‘ 砌D,Botany 分子进化生物学中序列分析方法的新进展① 张原 陈之端 (中国科学院植物研究所系统与进化植物学重点实验室北京 ]00093) 摘要简要介绍了分子进化生物学中序列分析方法的最新进展,特别强调了似然比检验和贝叶斯推论 在分子进化和系统发育假说检验中的重要性,并介绍了新方法的一些成功应用,同时还给出了一些重要 的信息资源。 关键词序列分析方法,似然比检验,贝叶斯推论,分子系统与进化 Recent Progress of Sequences Analysis Methods in Molecular Evolutionary Biology① ZHA G Yuan CHEN Zhi—Duan (1aboratory of跏 &Evolutionary Botany,Institute ofBotany,The ChineseAcademyofSc/ences,Beijing 100093) Abstract In this paper.we made a brief introduction to the recent progress of sequences analysis methods in molec ̄ar evolutionary biology.Especially,we addressed the signiifcance of likelihood ratio test and Bayesina inference in the hypothesis··testing of molecular evolution and phylogeny re·· construction.Some successful application ofnew methods was presented.Furthermore,SOme impor— tant information resources were given. Key words Sequences analyfis methods,Likelihood ratio tset,Bayesian inference,Molecular phylogeny and evolution 随着人类基因组计划工作草图在2000年6月公布,以及在此前后,包括大肠杆菌、酿 酒酵母、果蝇和家鼠等模式生物基因组计划的相继完成,后基因组时代已经到来(郝柏林 和张淑誉,2002)。特别是拟南芥和水稻基因组计划的完成,为比较植物学研究提供了前 所未有的机遇(Bennetzen,2002)。 与此同时,分子进化生物学也进人了发展的黄金时期(根井正利和库马,2002)。若干 基因组计划所产生的海量数据,为研究模式生物之间的系统发育关系,以及基因组或多基 因家族的进化开辟了无限的前景。同过去分子生物学概念和技术对于进化生物学所产生 的巨大单向冲击形成鲜明对照的是,进化生物学思想和方法正在广泛深刻地影响着分子 生物学和基因组学的研究方式——特别是在发育生物学、分子病毒学和免疫生物学中尤 为明显。 目前,序列分析方法在分子进化生物学中处于核心地位,同时也构成了生物信息学 (bioinformatics)的重要组成部分(郝柏林和张淑誉,2OO2)。本文简要回顾该领域的历史和 (D本研究得到国家自然科学基金委重点项目30130030和中国科学院知识创新工程重要方向项目I ̄CfftZ-SW-101A资 助。supp0ned by the N ̄onal Natural Science Foundation(grant key pmject 30130030)and the I:hinese Academy of Sciences (grant X Sw-1O1A)。 作者简介:张原,男,24岁,硕士生。2001年在北京师范大学生命科学学院获学士学位,现在中国科学院植物研究所 系统中心从事分子生物地理学和生物信息学研究。 收稿日期:2003-05-21 接受日期:2003-06-30 责任编辑:崔郁英 ;i ㈡: ! 莨窿 维普资讯 http://www.cqvip.com 4期 张原等:分子进化生物学中序列分析方法的新进展463 最新进展,并重点介绍最大似然法、似然比检验和贝叶斯系统发育分析方法的原理及其在 若干方面成功应用的例证,以及对于研究思路的影响,同时还给出相关的信息资源获取的 方式。 1历史的回顾 20世纪5O年代末,应用数学方法和电子计算机技术解决生物分类问题的新兴学科 数量分类学诞生了(徐克学,1994)。而((Principles of Numerical Taxonomy}(Sokal and Sneath,1963)一书的出版,是数量分类学发展史上的里程碑,标志着该学科的初步完善。 当时的数据基本上都是表型性状,如形态、解剖和生理性状等,分析方法主要是对性状进 行编码,然后使用多元统计学中的聚类分析进行量化研究。 中性学说的提出标志着群体遗传学深入到分子水平,同时也为后来的分子进化生物 学奠定了坚实的理论基础。与此同时,蛋白质电泳技术的引入使得定量估计群体遗传变 异成为可能,它的应用揭示了自然界大多数群体中存在着大量遗传变异,从而促进了群体 遗传学的发展(Nei,1975)。相应地,也出现了一些分析此类数据的软件,如BIOSYS.2等。 20世纪8O年代末至90年代初,一方面由于PCR技术使得DNA快速测序成为可能, 许多不同类群的大量DNA序列得以确定;另一方面则是因为数据分析的统计学方法和计 算机技术的发展(包括新方法的建立和发展以及高速个人计算机的升级换代),使得对于 DNA序列数据进行广泛深入而又简便易行的分析成为可能。 针对DNA序列数据,重建系统树的常用算法有3种(郝柏林和张淑誉,20o2):基于距 离的最小进化法(minimum evolution)和基于性状的最大简约法(maximum parsimony)、最大 似然法(maximum likelihood)。最小进化法要求根据某种替代模型计算序列间的距离,从而 构建进化距离最小的树,作为对于系统树的最优估计。最大简约法源于形态性状的研究, 理论基础是Ockham哲学原则,即解释一个过程的最好理论是所需假设数目最少的那个。 该算法假设4种核苷酸可以突变为与自身不同的任何一种,则对于任一给定的拓扑结构, 可以推断每个位点的祖先状态,计算出用来解释整个进化过程所需的最小替代数目,对所 有可能的拓扑结构进行计算并挑选出所需替代数目最少的拓扑结构作为最优系统树。 最大似然法也是根据特定的替代模型分析既定的一组序列数据,使所获得的每一个 拓扑结构的似然值最大。挑选出其中最大似然值最大的拓扑结构作为最优系统树。其分 析的核心在于替代模型——根据碱基频率的相等或不等、转换和颠换速率的相等或不等、 位点间替代速率异质性的有无以及不变位点比例的高低等若干特征可以有56种之多。 而模型的正确选择也就成为最大似然法的关键之所在。 由于无法直接考察有机体之间的系统关系,因此也就不存在评估系统树的绝对标准。 但是,无论使用何种方法重建系统树,都必须对其分支格局的统计置信度进行检验。常用 的2种方法是自举法(bootstrap)和刀切法(jackknife)(郝柏林和张淑誉,2OO2)。前者从原 始数据集中以相同的概率抽取每个位点(由于随机性,有些位点重复了,有些则缺失了), 直到新建数据集同原始数据集的位点总数相等,然后对于产生的新数据集建树,重复若干 次,得到特定分支格局出现的频率——自举值;后者同前者的差别仅在于新建的数据集要 比原始数据集小,而且不包含重复位点。 维普资讯 http://www.cqvip.com 植物学通报 加卷 2新方法的原理 近年来,概率论和高级统计学被广泛地应用于分子进化生物学,并且取得了显著成 果。大量的序列进化模型(假说)被提出,并在实际工作中不断得到检验,新方法层出不 穷,特别是似然比检验(1ikelihood ratio tests)和贝叶斯推论(Bayesian inference)在假说检验 中的应用,代表了方上的重要进展,为很多过去难以处理的重要问题提供了强有力的 解决方法(Huelsenbeck and Rannala,1997;Huelsenbeck et al,2000;2001)。 2.1最大似然法和似然比检验 最大似然法(maximum likelihood)是估计统计参数的常用方法(Huelsenbeck and Ran— nala,1997;Yang,2002)。假设观察到序列数据(D)的概率为P(D;0),其中0是拟合数据的 进化模型参数。由于数据已知,可以将P视作未知参数的函数,记作L(e;D)=P(D;0),L 就是似然函数,能够使得L及其对数似然值l=In L最大化的0值,就是模型参数的最大 似然估计。 似然比检验则进一步提供了模型选择(假说检验)的有效方法。假设复杂模型(备择 假说)有P个参数,其对数似然值为l =In L1;而简单模型(零假说)则有q个参数,其对数 似然值为lo=In ro,那么,用于比较两个假说的似然比统计量定义为: A=Lo/L1 特别地,在简单模型是复杂模型的特例(即将复杂模型的某些参数设置为相等或者固 定值,如0或1时,就可以得到简单模型),也就是说,二者嵌套(nested)的情况下,A永远 小于1,而 2In A=2AI=2(11—10) 在零假说为真的情况下近似地服从 分布,自由度d.f.=P—q。若检验统计量2AI 的观察值大于事先指定的 临界值,则拒绝零假说,接受备择假说;反之亦然。 2.2贝叶斯推论 系统发育的贝叶斯推论是建立在后验概率(posterior probability)基础上的,贝叶斯公 式: P[ IData]:P[DatalTree]×P[ ]/P[Data] 被用于整合树的先验概率P[Tree]和似然P[Datal Tree],以获得树的后验概率分布。 树的后验概率P[1'砌 I Daat]可视作该树为真的可能性。有关类群历史的推断就是根据树 的后验概率进行的。具有最高后验概率值的树的分支格局即可作为对于有关类群系统发 育关系的最佳估计。通常情况下,所有树的先验概率被认为是相等的,似然值则是在序列 进化的标准Markov模型下计算得到的。 因为后验概率不仅涉及所有的树,而且对于每一棵树还整合了枝长和替代模型参数 值的所有可能组合,所以不可能采用常规的分析方法解决。所幸的是,一系列数值方法可 以用于近似地获取后验概率,其中最有用的就是Markov链Monte Carlo算法。其基本思想 是建立Markov链,以替代模型参数作为状态空间,其静态分布就是参数的后验概率分布。 通过计算机模拟和抽样技术获得分支格局的后验概率。同以往的最大似然法相比,贝叶 斯推论的优越性在于:能够以很高的计算速度处理大型数据集,同时还提供了衡量树可信 维普资讯 http://www.cqvip.com 4期 张原等:分子进化生物学中序列分析方法的新进展465 性的有效参数——后验概率。 表1似然比检验和贝叶斯推论在分子进化生物学中的应用 Table 1 The application of likelihood ratio test and Bayesina inference in the molecular evolutionary biology 内容 原理 程序 参考文献 Content Principle Procedure Reference l DNA替代模型的选择 DNA substitutic ̄ 似然比检验 Likelihood Modeltest 3.06 modd selectic ̄ ratiotests (Posada and Crandall,199S) Karol d 2001 系统树的重建 贝叶斯推论 MrBayes 3.0 Mushy d .2001 2 n Iy reconstructic ̄ Bayesian infereme (HuelRsenbeek and  ̄cluist,2001) 3 分子钟假说的检验 Molecular clock Yoder and hypothesis test Ymg,2O0O 正选择位点的检测和识别 似然比检验 PAML(Ymg,1997) 4 lnvestigati ̄and identtifcaticm Likelihood ratio Bidm-sId and 0f positive selcetic ̄sitse tests Ymg,2OO3 生物性状的进化 Pagel,1994;Pagel, 5 The evolutic ̄0f bido ̄ Digcl-ete 1997;Pagel,1999a; characters Pagel,1999b 3新方法的应用 以列表形式给出了新方法在某些方面的成功应用(表1)。 Modeltest是根据等级制似然比检验原理进行DNA替代模型选择的程序,能够筛选最 优进化模型,采用尽可能少的参数,尽可能好地拟合数据,估计模型的若干参数,如替代种 类,碱基频率、不变位点和位点间替代速率异质性等等。检验结果即可用于最大似然法分 析和贝叶斯推论中。 MrBayes是根据贝叶斯推论和Markov链Monte Carlo算法重建系统树的程序,目前已 经得到了广泛的应用。它不仅能够建树和估计特定分支格局的后验概率,还能够估计替 代模型的参数值。因此,无论对于分子系统发育还是分子进化研究,都是很有用的。 PAML是应用最大似然法和似然比检验研究分子进化的程序,目前主要用于分子钟 假说的检验和正选择位点的检测和识别两个方面。在分子钟检验中,局域分子钟(1ocal molecular clock)的概念被用于构建假说。相对于全局分子钟(global molecular clcok,系统树 的所有分支替代速率完全一致)和无分子钟(所有分支替代速率完全)这两种极端情 况,局域分子钟对于事先确定的几个类群指定不同的替代速率,即群内速率一致,群间速 率。这样,对于全局分子钟、局域分子钟和无分子钟这三个模型依次进行似然比检 验,就可以确定分支间进化速率的最优模型。 对于特定类群的编码蛋白质基因而言,根据密码子水平上的异义替代速率dN和同义 替代速率ds的比值∞=dN/ds,相应位点可以分为三类,即:负选择位点(∞<1)、中性位点 (∞=1)和正选择位点(∞>1)。其中,中性位点的替代基本不影响蛋白质结构功能,因此 不受选择作用。负选择位点对于维持蛋白质的正常结构具有关键作用,很难在被替代的 }i瞧. .i i; 维普资讯 http://www.cqvip.com 植物学通报 2o卷 情况下维持正常功能,因此受到负选择(削弱),该位点的氨基酸替代速率很低;正选择能 够赋予蛋白质新的结构或功能,有利于个体的生存和繁殖,因此受到正选择(加强),该位 点的氨基酸替代速率很高。正、负选择位点的检测和识别对于理解蛋白质的结构和功能 具有重要意义。 Discrete是在系统树已知的基础上应用似然比检验生物二态性状进化模式的程序,可 以检验一对性状在进化过程中是否相关,以及各自的进化方式,如正向速率和反向速率是 否相等,是渐变的(gradua1)还是点断(punctuationa1)的,等等。 综上所述,似然比检验和贝叶斯推论对于分子进化生物学的推动是巨大的。在未来 的研究中,序列分析流程似可整合如下:(1)对联配好的数据集进行模型选择,获得最优的 替代模型;(2)重建贝叶斯系统树;(3)检验分子钟假说,可能的话,可以标定分子钟并估算 分歧时间;(4)根据贝叶斯系统树考察重要性状的进化模式;(5)若是编码蛋白质的基因, 还可以进行重要位点的检测和识别。目前,该流程的尝试性应用已经取得了良好的效 果①。 4信息资源 由于分子生物学技术和序列分析方法的迅猛发展,可以预见,分子进化生物学在后基 因组时代的重要作用将更为显著。而以序列分析为基础的生物信息学也将在分子进化生 物学中发挥不可替代的作用。因此,有必要介绍一些重要的分子进化生物学和生物信息 学的资源及其获取方式。 上述4种常用程序的主页分别是: Modehcst主页http://inbio.byu.cdu/Faculty/kaclcrandaU—lab/modehest.hun MrBayes主页http://morphbank.ebc.uu.se/mrbaycs/ PAML主页http://abacus.gene.uc1.ac.uk/ziheng/ziheng.html Discrete主页http://www.anl¥.rdg.ac.uk/zoology/pagel/ 分子进化的专业期刊有: Journal ofMolecular Evolution主页:http://hnk.springer.de/link/service/joumals/O0239/ index.hun Molecular Biolo ̄口nd Evolution主页:http://mbe.oupjournals.ors/ 此外,根井正利和库马著的《分子进化与系统发育》更是国际上该领域的最新教材。 目前,国际上最重要的生物信息中心是: 美国国家生物技术信息中心(NCBI)http://ncbi.nlm.nih.gov/ 欧洲生物信息学研究所(EBI)http://www.ebi.ac.uk/ 欧洲分子生物学信息网(EMBnet)http://www.embnet.ors/ 欧洲分子生物学实验室(EMBL)http://www.embl-hamberg.de/ 同国际上生物信息学的蓬勃发展相比,我国的生物信息学研究才刚刚起步。1997年 q 曼,(印刷中) 正旺, 郑楠,2oo3.似然比检验和贝叶斯推论在雉科分子系统学中的应用.北京师范大学学报(自然科学版) j l 曩蕊 - 维普资讯 http://www.cqvip.com 4期 张原等:分子进化生物学中序列分析方法的新进展 467 3月,北京大学生物信息中心(cBI)成立;2000年3月,中国科学院上海生命科学研究院生 物信息中 1 ̄.(BioSino)成立。这两个中心的网页很值得访问: http://www.cbi.pku.edu.on/ http://www.biosino.org 华北制药集团的谈杰建立的生物软件网http://www.bio-soft.net能够为访问者提供 免费的下载服务,许多国际自由软件都可以在那里获得。 此外,郝柏林、张淑誉的《生物信息学手册》和张成岗、贺福初(2002)的《生物信息学方 法与实践》都是学习生物信息学的好教材。 参考文献 张成岗,贺福初,2OO2.生物信息学方法与实践.北京:科学出版社 郝柏林,张淑誉,2OO2.生物信息学手册.第二版,上海:上海科学技术出版社 根井正利,库马编著,2OOO.吕宝忠,钟扬,高莉萍译,2OO2.分子进化与系统发育.北京:高等教育出版社 徐克学,1994.数量分类学.北京:科学出版社 Bermetzen J,2OO2.Openiogthe doorto o0| ve plant biology. ,296:60~63 Bielawski J P,Yang Z,2OO3.Maximum likelihood methods for ̄letecting ad印dve evolution after duplication..,Stma Funa C.oaom.3:201~212 Hu seIll JP,Rannala B,1997.Phylogenymethods珊ot"age:testing h1,p嚏l1esesin an evolutionary e ̄ltext.&/,arce,276: 227~2=l2 Huelsenbeck JP,Ronquist F,2001.MRBAYES:Bayesianinfere ̄e 0fphylogeny.B/o/nforma ̄,17:754~755 Huelsen ̄k J P,ltonquist F,Nielsen R,2OOO.Ao。0nm∞datiII】g ohylo ̄ac lJllc髓tainty in evolutionary studies.S画m ,288: 2349~235o Huelsenbeck J P,Ronquist F,Nielsen R,2001.Bayesian inference ot"r ̄yloge,ly and its impact on evolutionary biology.&/,arce, 294:2310~2314 KarolKG,McG呻毗RM,CilninoMT,2001.The closestliving relatives ot"land plaIIts.&妇,294:2351~2353 Mun ̄hy V,r J,Eizirik E,0’Bfien S J,2001.Resolution of the early pklcental mammal rlldiillion Ilg Bayesi ̄phylog ̄ties. Sc/nece,294;2348—2351 Nei M.1975.Molecular ropul ̄o.Genetics and Evolution.Amstetdan:North-Holland Press PagelM,1994.Detecting correlated evolution∞phylogenies:a generalmethodf the c0m venlysis ot"disc ̄d H舵ls. Proceedb ̄ofthe Royal Soc/ay r ,255:37~45 Pagel M,1997.Inferirng evolutionary processes from ohylo ̄es.Z.odog ̄s呐船(Journal ot"the Royal Swedish Ac,,aemy)25th Anniv ̄SpecialIssue on Vhylo ̄ties and Syst ̄atics,26(4):331~348 Pagel M,199%.Inferringthe historical pattems blologieal evolution.Nature.4101:877~884 Pagel M,1999b.The ma.,draumlikelihood approach to reeo.stmct1.g ancestral e,hal'actea"8tste¥ot"di¥cI ̄e eharaet ̄on phylo ̄ies5 B/o/,48:612~622 PodiaD,CrandallKA,1998.MODEL ̄:testingthemodel ot"DNA substitution.B/o/nformat/es,14(9):817~818 Sokal R R,Sheath P H A,1963.Principles ofNumerical TaxonomySan FHmldsco.California:Freeman Press Swofford D L,1993.PAUP:PhylogeneticAnalysis UsingParsimony.0l∞咖,IL:minoisNaturalttist ̄y Sl,rvey Yang Z,1997.PANL:aprogramf0 packagefor phylogenetie nlysisby nm nmlikelihood.CABIOS15:555—556 Yang Z,2OO2.Molecular clock.In:l'agel M ed,Oxford Eneydomdia ot"Evolu ̄on.Oxford:Oxford University Press747~750 YoderAD,YangZ,2OOO.Estim ̄on ot"primate speciation dates u商喀localmoleculardocksB/o/Evo/,17:1081~1090 i套 l}; 维普资讯 http://www.cqvip.com 植物学通报 20卷 l琢之端,中国科学院植物研究所系统与进化植物学重点实验 室研究员,博士生导师。1985年毕业于山东大学生物系。1992年8 月在中国科学院植物研究所获得博士学位。近年来一直从事的研 究领域是植物系统发育重建和演化,即利用多学科的手段,特别是 分子系统学方法,通过研究进化速率不同的基因或DNA片段的核 苷酸序列,在较高分类阶元上,探讨植物的系统发育关系和演化,并 将形态学、古植物学和分子系统学的研究结果相结合,研究植物大 类群的起源、分化和现代地理格局及其成因。目前本课题组正在探 索利用发育生物学方法,研究与形态性状有关的各类基因的结构、 进化和在不同分类群中的变异。曾主持完成过国家自然科学基金 委青年基金和美国国家地理学会(NGF)基金项目各l项,面上项目2项,并先后作为第二 主持人主持国家基金委重点项目各1项。已在国内外核心刊物上单独或合作发表论文 50余篇。