您当前的位置:首页 > 金融

潜心超级计算 拼凑基因“碎片”

发布时间:2019-10-24 12:23:27

  基因测序技术不仅探知人体密码,也产生了海量数据。据悉,仅华大基因的基因数据总量就已达到约几十PB,相当于约262万部高清电影的数据量。

  面对海量基因数据,传统计算机已远远无法满足高效分析的需求,高昂的存储和分析成本使得基因测序费用居高不下。然而,20多年来,个人基因测序的成本大幅下降,从以前要30亿美元降到如今只需要几百元人民币,这中间可是大量科研人员的辛劳付出。

  潜心研究生物大数据挖掘与分析技术十余年的中国科学院深圳先进技术研究院的魏彦杰研究员,就是其中之一。

  他利用超级计算机开发了一套快速分析软件,能够大大降低基因测序成本,其并行性能已领先国际同类系统。

  研发超算软件:20分钟内处理4T基因数据

  基因,支持着生命的基本构造和性能,储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息,破解基因大数据,对实现精准医疗至关重要。

  一个人的全基因测序数据量有多大?答案是约300G。“一个人有46条染色体,全部读取存储下来约3G,而在实际测序中,通常需要复制50-100份。”魏彦杰说,不仅数据量巨大,更让人头疼的是,46条染色体在测序过程中都被剪成很小的基因片段。

  “正常的基因长度含几千甚至上万个碱基,而在测序中被剪成了一个个约100个碱基的长度。”魏彦杰打比方说,“就像给你一本剪碎的百科全书,拿到任何一个碎片都读不出它的全貌,现在要用计算机的方法将它的每页每章节恢复出来。”

  针对基因大数据分析中的诸多难题,魏彦杰团队华大基因共同承担了国家发改委项目,带领团队开发出高可扩展的基因组装分析软件SWAP-Assembler。这套软件基于超级计算机Mira,可在20分钟内处理4T的基因数据,为基因检测技术和临床服务提供了有力支撑。该软件在系统扩展性和系统效率上已处于全球领先水平,在Mira超级计算机上的扩展性达到25万核,其系统效率达到30%以上。作为开源软件,自2014年上线以来,SWAP-Assembler已被美国阿贡国家实验室、俄亥俄州立大学、香港中文大学等机构广泛使用。

  高效解析蛋白质结构有望辅助新药研发

  海量基因数据的高效分析,仅是超级计算机助力生命科学研究的一个方面。此外,魏彦杰还利用超级计算机和优化算法对蛋白质结构进行模拟分析。据介绍,蛋白质是生物体内的基本物质,约占人体细胞干重的70%,为生长及维持生命所必需。

  “几乎所有的器官都含有蛋白质,并各自具有特殊的三维结构,这些结构决定了蛋白质功能的多样性,”魏彦杰说,“而解析蛋白质结构及其折叠过程则是药物研发的关键。”

  在过去的数十年中,科研人员通常采用冷冻电子显微镜、核磁共振、X射线晶体衍射等技术来解析蛋白质的结构,但每种方法都依赖大量的试错实验,普遍存在成本高、耗时长等问题。

  如今,随着IT与BT的深度融合,超级计算机也在蛋白质结构模拟中派上用场,魏彦杰团队正在研究的就是通过开发高效的蛋白质模拟和结构分析方法,关注蛋白质的静态结构和动态变化,与老年痴呆症密切相关的淀粉样蛋白就是其中的重要方向。

  “淀粉样蛋白聚集的斑块广泛存在于阿尔茨海默症患者的脑血管中,近年来研究表明,当这种蛋白形成桶状结构时,才是真正有毒的分子形态,”魏彦杰说,“我们课题组做的就是利用并行计算思路,更高效地研究该蛋白从纤维状正常态结构到毒性态桶状结构间的动态转化过程。了解毒性蛋白质结构的形成过程后,将为药物研发提供新思路。”

  对话

  看好生物大数据未来的发展前景

  在过去十余年的科研工作中,魏彦杰交叉学科背景的优势彰显。回忆学生时代,他表示自己高中最感兴趣的学科是生物和物理。“物理思维认为简单即是美,而生命科学又相当复杂,这两个看似矛盾的方向相碰撞一定很有意思。”

  抱着对两门学科的浓厚兴趣,本科从四川大学应用物理学专业毕业后,魏彦杰赴美国密歇根理工大学攻读计算生物物理学博士学位,随后在美国普林斯顿大学从事计算生物学博士后研究。2011年8月,他回国加入深圳先进院高性能计算技术研究中心。

  深圳包容开放的城市文化和深圳先进院新型科研机构的特色吸引了魏彦杰。“移民文化让深圳迅速发展,在深圳先进院有一大批优秀的青年科学家可以交流合作,”魏彦杰说,“这里相对自由的学术环境非常利于学术成长。”

  在生物大数据挖掘和分析领域,魏彦杰已发表高质量学术论文50余篇,主持多项研究课题,包括国家自然科学基金、国家发改委项目、科技部重点研发计划课题、广东省产学研项目等。

  对于生物大数据未来的发展前景,魏彦杰十分看好,下一步他将继续在高性能计算/生物信息学交叉领域研发高效的算法,力争解决生命健康科学中的重大问题。

  同时,魏彦杰强调,解决蛋白质折叠等重大生命科学问题,需要多学科深度交叉融合,从生命科学、物理、数学等基础科学理论以及计算机算法等多方面共同努力。

(原标题:潜心超级计算 拼凑基因“碎片”)