• yzc888
  • >
  • 产品创新
  • >
  • 生物信息分析平台-BioStack

生物信息分析平台-BioStack

基因测序分析所面临的挑战

自从 20 世纪 80 年代人类基因组测序计划启动以来,生命科学进入了高速发展阶段,越来越多的生物基因测序完成,各种高通量技术引起生物数据的快速增长,众多基因、癌症、医学研究机构和制药公司不断产生的海量数据,如何及时获取、快速分析、安全储存和智能管理这些庞大的数据是基因行业用户急需解决的问题。然而,传统的超算模型的基础架构和单一系统越来越不合适做生物信息分析了。

 

BioStack

BioStack为了满足生物信息分析对于速度、规模和智能化的苛刻需求,打造的高度垂直的、全栈的、专业的生物信息分析系统。从根本上解决生物信息行业所面临的数据规模问题,充分利用计算和存储资源,灵活有效的解读高复杂度的生物数据关系和结构,让生物数据的价值大放异彩。


Biostack 具有三大核心优势特性:

-           生物数据感知;

-           生物应用感知;

-           多样化计算。

生物数据感知

面对不断产生的海量数据,除了数据的存储和存取需求,在生信分析工程中,经常有通过不同维度组织数据分析的需求。生信分析人员经常性或者拷贝数据到不同目录,而造成大量数据冗余以及数据组织结构的不确定性。一旦有数据发生移动或者重命名,数据组织很可能就被破坏了,以至于无法找到。


数据空间不单单提供数据存储空间,还能根据多样化元数据,建立高效的索引,组织和发现数据,动态追踪数据的位置,这就是数据感知。数据管理系统Metaview 能够协助生信分析:

-           动态组织数据集合;

-           秒级快速发现数据;

-           多维度观察数据特征和数据溯源;

-           关联组学数据和表形信息,助力挖掘生物信息大数据。

生物应用感知

生物信息分析流程中引用的程序和工具繁多,不仅数据存取模式是多样化的,而且计算框架也是多样化的。例如:二代测序和三代测序对于后端数据存取需求的差别就很大,适合做二代测序的存储系统,有可能并不适合3代组装。甚至同一个流程中的不同阶段的工具对数据的存取模型也不一样。

BioStack有多套面向生物信息专门设计的分布式存储系统,理解生信应用,极致性能优化

- BioStack能根据数据存取模式、计算框架的不同,通过存储系统和计算平台的配合,感知生物信息应用,调度分析计算的过程同时,自动调度数据到合适存储模型和存储位置。 

多样化计算

生信分析变得越来越先进和复杂,除了传统的批量计算,Spark也越来越多的被引入到生信分析流程中来(比如GATK4 Spark版本)。如何隐藏计算框架的差异,统一动态的构建所需要的计算框架,协助生信分析科学家组织更复杂的生物信息分析流程?这些需要计算平台提供多计算框架支持,同时简化流程的组织和编排。

-   生信科学家在Bioflow执行引擎上完全不需要关心计算框架的差异,可以轻松构建一个混合计算框架的流程。

-   Bioflow 提供了丰富的表达方式:BSL(Bioinformatics Specific Language)WDL以及可视化编排。这大大的降低了生信科学家对并行编程能力的要求,在简单的语言描述下,组织高质量,高并行,健壮的复杂分析流程。

-   Bioflow计算平台不单单是一个分布式调度器,而且还是生信分析的高级执行引擎。包括了完整流程编排,流程管理,作业管理,工具管理,权限管理等等

更加专业的生物信息分析系统

有别于通用硬件+通用软件堆砌的生物信息分析系统。BioStack是为生物信息专门设计的自底向上的完整的数据系统,一次性解决生物信息数据的存储、数据管理、分析计算和特征数据挖掘。是高度垂直的、全栈的、更专业的生物信息分析系统。


Bioflow 还集成了很多常用的经典流程,WESWGSRNASeq 等等。同时,计算平台集成开发了多样化的数据可视化工具和公共数据库,协助生信分析人员轻松的理解分析结果,并且简化解读的流程。


尽最大的可能让生信分析科学家关注“生物信息科学”,减少“工程负担”。

相关新闻

产品推荐