Skip to content

Enancio

Enancio技术加入Illumina家族

降低与大数据相关的基因组数据存储和传输成本

Lossless genomic compression available for the first time on-instrument

DRAGEN ORA (formerly Enancio's Lena) lossless genomic compression is now available on-instrument with the NextSeq 1000/2000 Sequencing System and also on the DRAGEN server v3.8.

Learn More About NextSeq 1000/20000
Learn More About DRAGEN
Enancio Logo

基因组数据压缩带来的收益

Illumina致力于提供创新的测序技术,帮助客户管理测序研究激增导致的不断增长的数据产出。Enancio的基因组数据压缩技术,即现在的DRAGEN ORA(original read archive)为用户提供了针对速度和效率的优化技术,是Illumina信息学解决方案中的重要组成部分。

基因组数据压缩可以:

  • 降低存储成本
  • 提高文件传输速度
  • 减少内部网络流量

无损基因组数据压缩技术

Enancio的无损基因组数据技术通过压缩Illumina测序仪输出的数据,将数据存储占用空间减少5倍。Enancio技术采取基于参考基因序列的压缩方法,使用超快速定位方法将reads定位到参考基因组,然后只存储重新生成这些reads所需的数据:一个位置和一个差异列表。

其他类型的数据压缩技术通常速度较慢。Enancio技术针对高压缩比以及快速压缩和解压缩率进行了优化,同时保持了数据的完整性。用适合不同类型质量方案的距离编码器和背景模型,以无损方式对质量分数进行编码。

获取DRAGEN ORA解压缩软件

所有用Illumina压缩技术压缩的文件都可使用这里提供的解压软件轻松解压。该解压软件可以免费下载和使用。

安装后,通过简单的命令即可直接将解压的输出结果传递给各种常见定位工具,例如BWA、STAR和Bowtie。压缩和解压缩技术也将无缝整合到DRAGEN二级分析工作流程。

立即下载

Enancio是Illumina最近收购的一家公司,拥有专门为基因组学数据设计的专有无损数据压缩技术。

DARGEN ORA无损压缩专为基因组学数据而设计。使用基于参考基因序列的方法压缩DNA序列:使用专为压缩设计的超快定位方法,将reads定位到参考基因组上。应用紧凑的二进制格式将reads编码为位置和差异列表,再采用熵编码器。用适合不同类型质量方案的距离编码器和背景模型,以无损方式对质量分数进行编码。

与gzip相比,DRAGEN ORA压缩技术将fastq文件的数据占用空间减少了5倍1。这意味着直接节省存储成本和更快的文件传输速度。

压缩技术将首先整合到DRAGEN BCL转换,为用户提供生成比 fastq.gz1小5倍的压缩fastq文件的选项。 该压缩技术可在NextSeq 1000/2000上使用,可以直接在仪器上生成压缩fastq文件。请继续关注DRAGEN未来的版本,它将包含把无损基因组压缩的fastq文件作为BCL转换的一部分。

在NGS工作流程中,您可以在BCL转换中选择启用压缩,生成压缩的fastq.ora文件。fastq.ora文件可被无缝地用于DRAGEN的序列比对流程。fastq.ora文件也可以被先解压,然后再用于其他下游流程。在DRAGEN BCL转换流程中整合了此压缩技术,如下图所示:

DRAGEN中使用的ORA压缩技术
在收购Enancio前:压缩是单独的软件,因此压缩也是额外的一个步骤。

压缩技术输出的是一个新的压缩的fastq二进制文件格式文件:fastq.ora。此文件格式可以存储和共享,可明显减少存储成本和文件传输时间。所有压缩的文件可用 免费提供的解压缩软件解压缩。

Fastq.ora文件可即时解压缩,然后用于序列比对和下游流程分析。不久将直接被DRAGEN上的分析流程直接处理。

235 GB的原始fastq文件可通过gzip压缩至55 GB。利用DRAGEN ORA压缩技术,数据占用空间进一步降低至11 GB2

存储Fastq文件和BAM或CRAM文件通有不同用途。但是,fastq.ora文件支持您存储原始数据的压缩副本,保留MD5值,并且与相应的CRAM文件相比占用空间更小。

DRAGEN已经可以将Fastq和BAM文件分别压缩为fastq.ora和CRAM文件。

压缩的使用完全是可选的。DRAGEN用户仍可自由选择以下存储策略的任何一种:启用转换至fastq.ora压缩文件格式并存储这些文件、禁用转换至DRAGEN ORA压缩文件格式fastq.ora而继续存储fastq.gz格式的文件,或者存储BAM或CRAM文件。

是的,压缩技术将与DRAGEN工作流程无缝整合。

此外,免费解压缩软件安装完成后,通过简单的命令即可直接将解压的输出结果发送给多种常见定位工具,例如BWA3, STAR4, 和Bowtie5

Illumina ORA 压缩的fastq文件可以共享。解压缩软件是免费提供的。在免费解压缩软件安装完成后,通过简单的命令即可直接将解压的输出结果传递给多种常见定位工具,例如BWA3, STAR4, 和Bowtie5

对压缩技术还有疑问?

联系我们了解更多。

DRAGEN Bio-IT平台

Enancio的基因组学数据压缩技术将直接整合到DRAGEN中。DRAGEN为用户提供准确、超快速的测序数据二级基因组学分析。

了解更多

相关解决方案

基础架构和流程设置

我们提供多种资源和信息,有助于您简化信息学基础架构以及相关流程的设置。

测序数据分析

我们的测序数据分析软件可减少配置和运行分析工作流程所需的时间,从而让您有更多的时间进行研究。

Illumina信息学产品系列

了解旨在简化基因组数据分析和管理的各种信息学产品。

参考文献
  1. 基于NextSeq 1000/2000和NovaSeq 6000系统生成的文件
  2. 此结果来自在NovaSeq 6000仪器上以30x覆盖度测序的DNA样本NA12878。数据可通过BaseSpace项目获得:basespace.illumina.com/s/3ExEZMlH8Lkq.
  3. Li H. and Durbin R. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.
  4. Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29(1): 15–21.
  5. Langmead B. et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology 2009 10:R25