宏基因组剖析专题(4):宏基因组拼接的高效东西:megahit的装置和运用
来源:m6米乐娱乐 发布时间:2024-12-01 18:13:56
详情
宏基因组剖析专题(4):宏基因组拼接的高效东西:megahit的装置和运用
在上一节“宏基因组剖析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的装置和运用”内容中咱们讲解了测序数据的质量评价和操控,二代测序尽管其通量高,可是其过错率也高(一般一条read的前后若干bp过错率较高),在进行fastq质量评价和Trimmomatic对过错碱基进行修剪后,咱们应该把质控后的reads经过一些软件结合一些算法把这些比较短的reads拼接成一些长一点的Contigs才干进行下一步的剖析。
(1)SOAPdenovo:这款软件由华大开发,SOAPdenovo2是用于short-read拼装的软件,大多数都用在拼装比较大的基因组,拼装速度快可是过错率较高。
(2)SPAdes:metaSPAdes是现在宏基因组范畴拼装目标较好的软件,尤其在株水平拼装优势明显,拼装作用优,可是拼接时间长,资源耗费高
(4)Megahit:MEGAHIT是NGS de novo汇编程序,在土壤等杂乱环境样本拼装、很多样本混合拼装方面优势明显,速度很快,耗费的资源少。
MEGAHIT是NGS de novo汇编程序,用于以节省机遇和本钱的办法来汇编大型和杂乱的宏基因组学数据。它分别在具有和不具有图形处理单元的单个核算节点上,在44.1和99.6 h内完成了252 Gbps的土壤宏基因组学数据集的拼装。MEGAHIT将数据全体拼装在一起,即不需要像分区和规范化这样的预处理。与曾经的拼装土壤数据的办法比较,MEGAHIT生成了三倍大的拼装,具有更长的重叠群N50和均匀重叠群长度;此外,有55.8%的读段与装配体对齐,来提升了四倍。
-m/--memory 在SdBG 结构中运用的最大内存(以字节为单位)