山东时时彩怎么中奖号码的真实规律 山东时时彩是什么 山东时时彩11选5开奖结果 山东时时彩怎么中奖号码的真实规律 山东时时彩怎么中奖 山东时时彩11选5开奖结果 山东时时彩重庆时时彩 山东时时彩怎么中奖号码的真实规律 山东时时彩十一选五 山东时时彩网 311山东时时彩 山东时时彩开奖视频直播 山东时时彩开奖直播 山东时时彩是什么意思是什么 山东时时彩抓获 山东时时彩是什么意思是什么意思是什么 山东时时彩重庆时时彩网 山东时时彩玩法介绍 山东时时彩开奖视频直播 山东时时彩官方开奖 山东时时彩是什么 山东时时彩 山东时时彩平台 山东时时彩开奖号码 山东时时彩网站 山东时时彩开奖号码走势图 山东时时彩抓获 山东时时彩怎么中奖号码的真实规律 山东时时彩网11选5 山东时时彩网 山东时时彩是什么意思是什么意思是什么意思是什么 山东时时彩网站诈骗 山东时时彩网址 山东时时彩怎么中奖号码的真实规律 山东时时彩诈骗案 山东时时彩五运 十一运夺金山东时时彩 山东时时彩是什么彩票 山东时时彩官网下载 山东时时彩网站诈骗 山东时时彩是什么意思是什么 十一运夺金山东时时彩 311山东时时彩 山东时时彩开奖结果走势图 山东时时彩官网下载 山东时时彩重庆时时彩 山东时时彩重庆时时彩网 山东时时彩是什么东西 山东时时彩开奖结果走势图 山东时时彩开奖号码

荣之联极道BIOSTACK助力诺禾致源基因测序分析

关于诺禾致源

?#26412;?#35834;禾致源科技股份有限公司于20113月在?#26412;?#20013;关村生命科学园注册成立,专注于开拓前沿分子生物学技术和高性能计算在生命科学研究和人类健康领域的应用,致力于成为全球领先的基因组学产品?#22836;?#21153;提供者。

业务挑战

       诺禾致源全基因组重测序采用先进的测序?#25945;ǎ?#24555;速、高效地读取高质?#24247;?#27979;序数据。随着公司业务的发展,高性能计算?#25945;?#23558;会?#20013;?#26356;新并扩容,以保证高效的数据处理和安全的数据存储。然而随着计算集群规模的不断扩大,海量数据的存储、管理等方面临着诸多的挑战:

      • 面?#21592;?#21457;式增长的基因数据,如何有效的存储和存取大规模生物数据,以适应基因研?#24247;?#38656;要;
      • 不同的测序技术、不同的分析阶段访问数据的模?#20581;?#23545;于存储的带宽、IOPS和延迟等性能指标都有不同的要求,所以无法通过单一的存储系统,来解决生物信息分析所面对的所有问题;
      • 除?#31169;?#20915;数据存储空间问题,生物数据分析经常有通过不同维度组织数据分析的需求,如何根据多样化的生物数据特征从海量数据中快速发现数据和组织数据集?

      解决方案

      整体方案理念


      在充分理解用户需求的基础上,荣之联极道存储系统针对不同数据存储模型,做了极致的性能优化,集合多套存储系统,把他们有效的整合在一起,达到物尽其用的效果。同时通过与数据管理与计算系统的结合,使得数据不再僵化的存储在一个大池子里面,而是能够智能的流动起?#30784;?/span>


      二代基因分析存储方案

      应用特征分析

      二代基因分析业务?#28304;?#20648;性能、存储容量要求都非常高,主要体现在如下方面:?

      • 存储数据量大: 例如:一套 HiSeq X10 系统三天一轮测序分析产生的数据量?#22025;?/span> 73TB 其中 26TB 需要永久或长期保留,一年产生的数据需要大约3PB 的有效存储空间;?
      • 存储带宽要求高: 基因分析过程?#28304;?#20648;和网络带宽要求高,至少需要存储系统具备 3GB/S 以?#31995;?#21534;吐能力,且对实时性要求非常高,否则可能导致数据不完整。
      • 小文件很多:此类文件用于存储原始或临时的基因组信息,例如:BCL格式文件,通常小于64KB。与处理大文件不同,因为每个文件的I/O都需要对数据和元数据进行两次操作,生成?#22836;?#38382;大量文件的负载会非常大,对底层存储系统的IOPS性能也具有很高的要求。

      解决方案

      荣之联极道生物数据存储为?#31169;?#20915;生物信息数据空间和数据持久化问题而设计,能够理解应用场景,实现极致性能优化。

      其中极道Alamo-D存储系统针对高带宽为主的应用类型设计,能够提供卓越的带宽性能(每个节点1GB以上),针?#20113;?#32321;的元数据操作?#22836;?#38382;,存储还具有SSD元数据加速、缓存加速技术来保证高IOPS响应。

      同时荣之联极道生物数据存储能够智能追踪元数据的变化,自动提取数据特征信息,与数据管理系统结合实现快速发现数据、数据多维有序、动态组织数据集和数据溯源等功能;


      方案拓扑示意图


      【三代基因分析存储方案】

      应用特征分析

      二代测序和三代测序都属于高通量测序技术,测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据分析。三代基因测序组装这类应用对于系统的计算性能、存储性能等方面都有很高的要求。

      目前,由Pacbio公?#31350;?#21457;的FALCON是第三代基因测序组装领域的主流软件。FALCON由于?#24033;?#24207;数据(rawdata)切割成KB级别的卷来进行?#26469;恚?#22240;而需要频繁的?#25490;?/span>I/O,所以在计算过程中,?#25490;?/span>I/O经常会成为系统瓶颈。

      FALCON应用特征:

      1.?#25490;?/span>IO 方面,程序运行过程会产生并产生大量小文件,IO操作较为频?#20445;?/span>

      2.raw_data merge 部分,IO压力较大;

      解决方案

      为了应对三代测序对于高?#25490;?/span>IO操作的应用特点,荣之联极道采用Anna存储系统-----一款针对IO性能优化的分布式存储系统。利用NVMeSSD 硬盘构成高速缓存池,极大的优化了IO响应性能,并且通过智能分层技术动态的将数据从SSD层迁移至HDD层,?#26723;?#24635;体成本的同?#20445;?#36827;一?#25945;?#21319;了数据?#30446;?#38752;性。

      存储规划:

      ?     存储节点:3Anna分布式存储节点

      ?     数据保护:双副本

      ?     存储空间规划:

      √CachePool 3 3.2TB NVMe SSD/节点;

      √MetaData1 800GB SATA SSD/节点;

      √DataPool10 8TB 7.2K HDD/节点;

      方案价值

      1)理解应用场景,极致性能优化

      荣之联极道分布式存储系统是为解决生物信息数据空间和数据持久化的问题而设计的。推出Alamo-DAnnaAlamo三个系列的分布式集群存储系统,分别满足应用对高带宽、高 IOPS、数据归档的需求。多套存储系统能够实现统一部署、统一管理,构成统一的生物数据空间。

      2) 与“管”结合: 数据感知,多维数据呈现;

      通过独有的数据感知引擎,实?#22791;?#36394;记录数据特征,实现快速的数据发现和组织。

      3) 与“算” 结合: 应用感知,智能数据空间分配;

      通过与计算系统的紧密结合,能够智能感知应用负载类型,调用合?#23454;?#23384;储空间。

      相关新闻

      山东时时彩网址
      相扑君的逆袭试玩 bbin电子网上娱乐 武财神摆放示意图 水果大战作文 斗破苍穹系列游戏 魔术兔注册 内蒙古十一选五走势图走势图一 巴列卡诺vs莱万特 2016年骑士vs勇士g3 宝石之轮登陆 山西11选5走势图 杜塞尔多夫世乒赛男单