基因

7分钟分析人类全基因组他们刷新全球纪录此前最快也要24小时

来源:开云网站    发布时间:2024-03-12 18:43:27

  他们这次所做的具体任务,叫做30X人类全基因组测序(WGS)胚系变异分析。

  而在这个团队之前,同等条件下完成这项任务所需的时间,却长达近24小时之久。

  所以咱就是说,现在的“battle”结果就是——24小时 vs 7分钟,性能整个提升了200多倍!

  因为基因预测的一个用途,就是检测罹患多种疾病的可能性,锁定个人病变基因,以此来提前预防和治疗。

  听起来确实是个好事,但如果放到过去,由于既耗时又费钱,能做得起基因预测的人屈指可数。

  但今时不如往日,随着算力、AI、大数据技术的持续不断的发展和融合,让基因测序这样数据密集型应用变得越发亲民。

  而这一次的“7分钟”,能够说是把基因测序这件事往“平民时代”更推近了一步。

  人类全基因组测序要做的事,就是对未知基因组序列的物种进行个体的基因组测序。

  毕竟对象可是组成人体2.5万基因的约30亿碱基对,换算成容量大小则约为3GB。

  但这还不算完,为保障基因数据的完整性,在此基础上还需要做30次的平行测试。

  而且随技术的不断迭代演进,数据的存储已经从最初的人类基因组开始细分扩展,逐步涉及到肿瘤、遗传病的检测等等。

  也正是因为数据量和数据种类的日益庞大,使得这方面的工作数据存储,动辄便以PB为单位来保存。

  这就直接影响到了诸如基因采样、样本制作、数据下机、生信分析以及后基因测序等环节。

  但更为重要的是,诸如基因这样的数据,隐私安全是很值得注重的一环,而也正因为数据量的爆发式增长,使得数据安全管理、存储和分析变得异常困难。

  团队在面对这些挑战所选择的突破口,并不是大多数人以为的强行堆算力,而是用底层数据存储的飞跃来做到提速。

  简单来说,是通过把以往不能合并处理的海量数据,打破它们之间的壁障,让整体的处理效率“更上一层楼”。

  据介绍,华西医院在这项工作中主要负责顶层设计,包括多模态组学数据分析和基因应用等。

  由此可见,存储系统就像是一根“定海神针”,牢牢地把握着海量数据任务的“命脉”。

  那么接下来的一个问题便是——团队此次能够打破世界纪录,它的专属“定海神针”又是什么?

  不卖关子,团队在这项任务中的存储系统,便是来自华为面向高性能数据分析(HPDA)的分布式存储OceanStor Pacific系列。

  它是一种可大规模横向扩展的智能分布式存储,可以hold住高性能计算、AI应用、数据库、大数据分析和海量数据备份归档等业务需求。

  而OceanStor Pacific之所以能协助团队在此次任务中打破世界纪录,是因为它自身就是头顶“世界顶级选手”光环的那种存储系统。

  在国内范围来看,更是独秀一枝,不论是整体、文件存储、对象存储还是块存储方面,都是稳居市场第一。

  这不,就在前不久IO500 (高性能计算领域针对存储性能最权威世界排行榜之一)发布的最新榜单中,华为存储HPDA Lab(由华为OceanStor Pacific存储支撑)位列第二。

  而之所以能如此“能装”,是因为它将各种SSD(固态硬盘)都设计的非常小巧:

  基于这样的硬件设计之下,便是华为存储的第二个特性——“多到一,一到多”,具体来讲就是:

  传统的做法就是来一个负载类型,就部署一个对应类型的存储;但这样做的结果,就是易产生“孤岛现象”,而且不利于提升整体的效率。

  而理想的状态就是存储系统能满足一个“既要又要”——高带宽、高IOPS。

  (带宽型方面的衡量标准是单位时间内的数据总吞吐量;而IOPS则是单位时间内能处理的总的IO请求量、以及每个IO的处理时延。)

  例如存储系统在面对大文件时,就对应“大I/O”,采用直通方式将数据写到磁盘。

  而当与之相对的小文件到来时,就对应“小I/O”,主要是将数据聚合后写到磁盘:

  OceanStor Pacific系列存储的第三个独特性,便是打通协议的“任督二脉”。

  华为存储提出这个特性的大背景,是因为现在在处理诸如基因测序这样的任务时,数据往往会呈现多种格式,例如文件、对象、大数据等等。

  也正因如此,以往在整个数据处理过程中,单是数据转化、拷贝、加载这样的工作就占到了35%的时间。

  “共池”主要共享硬件资源池,是在一套硬件上划分出多个独立的逻辑资源池,并根据不同的数据类型做部署。

  但问题在于每个逻辑资源池只支持一种协议访问,也就是说跨协议的时候,还是需要经过“数据拷贝”的过程:

  华为存储提出的“协议互通”技术则不然,实现的是多个协议共用一个硬件资源池。

  换言之,现在当一份数据“走进”存储系统后,不再需要做任何的转换了,可以直接被其它协议直接访问。

  而也正是因为刚才讲到的这些独有“功夫”,华为存储,这个世界级选手所涉足的领域早已不仅限于基因测序。

  还有众多诸如此类的海量数据场景,例如能源勘探、气象海洋、人机一体化智能系统、超算中心等等。

  确实,在过去一段时间里,在处理像基因测序、生物制药等数据密集型应用时,大家似乎都会关注其背后的高性能计算(HPC)的效果如何。

  每年的HPC Top 500 高性能计算机排行榜,也成为公众非常关注的“保留节目”。

  但随着数据爆发式的增长,以及AI技术的不断推陈出新,数据密集型应用的发展不再仅仅聚焦在算力方向。

  也正因如此,数据密集型应用正在步入一个新的时代—— 高性能数据分析 (HPDA)。

  在这个时代之下,类似无人驾驶、基因测序等任务,对于数据分析的实时性要求越来越高。

  而要实现这一点,也正如刚才我们所阐述的,离不开“数据存储系统”这一夯实的底座。

  唯有这根“定海神针”足够稳固、扎实,且需得具备技术上的创新,才可能正真的保证其上层的工作以及上层与之的交互畅通无阻。

  但比起应用方面的丝滑,通过推进新一代存储系统(即HPDA)来逐步发展数据密集型应用,这件事还具有更深远的意义。

  例如油气地震勘探也在进入海量数据时代,需要采用大量的高性能计算和大数据分析技术。

  但痛点也正如刚才我们提到的,其间的任务绝不是单一的,所产生的数据类型、结构也是纷繁复杂。

  而通过新一代存储系统的优势,就能做到规模化统一部署,以此来提升整体流程的效率。

  再如超算中心、智能医疗、无人驾驶,甚至是宇宙探测等,均是需要HPDA的能力来完成对海量数据的高效分析。

  从另一种角度来看,新一代数据存储正在成为国家的关键基础设施,堪称“国之重器”。

  而华为OceanStor Pacific系列存储,无论是从市场占有率、技术实力排名等等,均已成为国产新一代数据存储系统中的不二之选。

  但比起亮眼的成绩,在最重要的实际行动方面,华为OceanStor Pacific系列存储也已经是处于“进行时”了。

  至于接下来在HPDA时代中,新一代数据存储的技术进步还将结出怎样的硕果,是值得拭目以待了。

  向善向上 保持年轻 ——云集创始人兼CEO肖尚略受邀参加2021年中国青年创新创业交流营

  向善向上 保持年轻 ——云集创始人兼CEO肖尚略受邀参加2021年中国青年创新创业交流营

  金磊发自凹非寺量子位报道公众号QbitAI7分钟,这是来自中国的一支团队“合力出成绩”、一举打破的世界...

返回顶部