2012年全年开奖记录

并有着极其重要的价值

2016-12-29 12:00

文的算法主要由三个部分组成:第一步,数据预处理,根据给定的质量值,利用错误率的大小及数据统计将可能的错误碱基修正;第二步,依据重叠部分长度的不同,将读长以优先级的大小依次进行排序。并对所获得的结果利用递归方法再次执行,直到结果集中的主链不再增长。第三步,利用给定的算法对存在最长序列的结果集中的序列进行选择,确定最终的dna序列。对于存在重复序列的片段,本文算法将所有可能的拼接方式都记录下来,当在结果集中查找最终序列时将依据双链的碱基互补原则进行筛选,进而获得原序列中的重复序列信息。不同于其他的基于图的算法,在查找euler通路或者是hamilton通路中出现由于重复序列导致图的连通性问题,本文算法利用向量或者是矩阵判别避免了类似的问题。利用本文的算法对一个全长约为120,000个碱基对的细菌人工染色体(bac)进行测序,最终获得一条超过110000bp的序列,测序准确度高达92%。从实验结果上显示出本文算法能够准确有效的获得dna序列。

dna拼接是生物信息学的热点话题,并有着极其重要的价值。随着第二代测序技术的发展,新的测序算法大量涌现,例如贪婪图算法、olc算法、de bruijn图算法。本文提出了一种基于读长结构匹配的算法,通过对读长的分析给出一种可能的拼接结果,,重点解决了以往基于图的测序算法中重复序列的问题。