⾸先应该注意区分序列相似性与序列同源性的关系,序列相似不⼀定同源,但是判定同源性关系的时候有些算法(Maximum likelihood除外)要考虑到序列相似性。序列相似性是将待研究序列与DNA或蛋⽩质序列库进⾏⽐较,⽤于确定该序列的⽣物属性,也就是找出与此序列相似的已知序列是什么,完成这⼀⼯作只需要⽤到两两序列⽐较算法,常⽤的程序包有BLAST,FASTA等。同源性分析是将待研究序列加⼊到⼀组与之同源,但是来⾃不同物种的序列中进⾏多序列⽐对,以确定该序列与其它序列间的同源性⼤⼩。多序列⽐较算法常⽤的程序包有CLUSTAL等。
1、 序列⽐对,从数据库中寻找相似序列: ⾸先打开NCBI的BLAST⽹站: ,选择protein blast,然后将待⽐对序列粘贴进去,进⾏
BLAST(⼀些参数的设置收藏夹或百度)。等待⼀定时间后将会出现与所选数据库的⽐对结果,按照打分⾼低将top100(可以设置成其他数值)的序列显⽰出来,然后可以将该100条序列下载下来。存成test.fasta⽂件。这个⽂件就是在mega中进⾏多序列⽐对建树所⽤的⽂件。2、 多序列⽐对:打开mega,ALIGN-BUILDALIGNMENT-Create a new alignment-protein-open-retrieve sequences from file-no -test.fasta(或者直接拖动进去,或者双击打开test.fasta),然后点击Alignment——Align by ClustalW——OK——OK。然后⽐对成功,选择Data——Export Alignment——MEGA format保存⽂件为test.meg,可以关闭Align会话框。
3、 构建进化树:打开test.meg。点击PHYLOGENY——选择最上⾯的ML⽅法,参数可以选择默认参数。就出现了进化树。当然⼀些参数最好还是⽤到,⽐如说可信度验证的次数设置最好要⼤于等于500次。4、 进化树的美化与理解
因篇幅问题不能全部显示,请点此查看更多更全内容