博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HPC解决方案
阅读量:4198 次
发布时间:2019-05-26

本文共 8598 字,大约阅读时间需要 28 分钟。

生命科学

    

理论推导和科学实验长期以来一直是人们研究和探索自然的两大方法,但随着高性能计算技术和应用的迅猛发展,计算模拟已成为科学研究中不可缺少的第三种方法。过去的几十年里研究人员在化学、生命科学、生物物理、生物化学、药物研究等微观领域的研究中,基于量子力学方法发展了大量而可靠的非相对论薛定谔方程和相对论迪拉克方程的近似解法,用来模拟微观世界中原子和分子的相互作用和行为。例如,使用并行程序进行密度泛函理论(DFT)计算已经成为计算化学、计算生物学等领域内必不可少的研究手段之一;并行实现的高精度耦合簇理论(CC)和组态相互作用(CI)方法被许多量子化学计算程序采用,成为计算化学的主要工具;基于牛顿力学并结合了量子力学的分子动力学计算的并行实现,是生命科学、生物物理、生物化学、药物研究等领域的主要模拟手段。随着更强大、更高计算能力的超级计算机的出现,人们可以模拟越来越大规模的微观系统、越来越长时间的微观过程、越来越精细的微观现象,从而极大的增强了对自然的认知能力。

 

中国科学院大连化学物理研究所--并行计算在阿秒动力学领域的应用

    当激光场强度很强时,其作用的时间尺度可以达到亚飞秒(也就是阿秒级别,使得无论的实验上还是理论上都能够真实的观测到电子的运动。强激光场作用 于原子或分子体系,产生了许多超快动力学现象,这些现象都属于非微扰理论范畴,需要对其在现有的超级计算条件下用精确的数值方法求解含时薛定谔方程。现有的方法计算比较耗时,我们开发了一套处理这类情况的量子波包程序 ZH-DICP,对原有的方法进行了优化,运用OpenMP并行工具处理所有矩阵的相关操作,大大节约了CPU时间。

 

    传统的计算化学主要是研究原子和分子尺度的小分子体系的行为和相互作用。在这个领域里使用的计算理论主要包括Hartree-Fock方法(HF)、密度泛函理论(DFT)、多体扰动理论(MBPT)、组态相互作用理论(CI)和藕合簇理论(CC)等。这些方法根据对体系能量处理方式的不同,主要分为两类。第一类方法采用有效的单电子模型,提供精确的单电子能量函数,对其他部分的能量做近似处理。比如Hartree-Fock方法(HF)和密度泛函理论(DFT)就属于这一类。它们计算速度快,并行度好,但精度有限,主要用于计算较大体系和定性计算。另外一类称为后Hartree-Fock方法,用较为精确的方法处理双电子相互作用。例如多体扰动理论(MBPT)、组态相互作用理论(CI)和藕合簇理论(CC)就属于这一类,它们主要用于计算较小体系和定量计算。这些方法的计算准确性高,计算时间比较长,对内存和硬盘空间的要求比较高。目前实现的计算程序中,这些方法的并行效率和扩展性都不高,甚至很多程序包中没有实现这几种方法的并行计算。

    在计算化学领域里,大多数研究对于计算的需求主要是容量计算的需求,计算任务非常多,但单个计算的计算资源需求较少,计算的并行度不高,运行的时间并不会太长,内存需求和用于存放临时文件的硬盘空间需求较大。因此,在化学领域的计算中,并行加速的需求并不太大。在程序实现中,较为简单的OPENMP和跨计算节点MPI的并行实现都会采用。例如使用最为广泛的计算程序GAUSSIAN,只采用OPENMP进行并行实现,而计算程序MOLPRO和NWCHEM则通过MPI进行并行实现。目前应用比较普遍的计算化学程序包括G A U S S I A N、N W C H E M 、M O L P R O 、Q C H E M 、G A M E S S等等。研究内容包括化学反应过程和机理、催化机理等。

 

复旦大学化学系

    通过计算模拟发现了F i s c h e r - T r o p s c h 反应催化的重要机理:在富碳条件下,分解一氧化碳的能力是好的F i s c h e r - T r o p s c h 反应催化剂的关键因素。Fischer-Tropsch反应可以将一氧化碳和氢气的合成气转化为具有较高分子量的碳氢化合物,这样就可以通过这个反应路径,利用天然气或煤来制造燃料或具有更高价值的有机化合物例如汽油等,如图1所示。

 

图1 Fischer-Tropsch反应原理示意图

 

中国科学院武汉物理与数学研究所

    采用最新的1H二维双量子魔角旋转和其它NMR实验技术, 并结合量子化学计算,对HY沸石分子筛催化剂进行了研究,研究结果为进一步从原子分子水平上研究分子筛酸催化反应的机理打下了基础。HY沸石分子筛催化剂广泛应用于石油化工中的裂化、异构化等重要酸催化过程。清华大学化学系通过高分辨的光电子能谱和相对论量子化学计算,获得了Au(CN)2-及其同系物的精确电子结构,在微观层次上对于A u ( C N ) 2-特殊的稳定性给予了清晰的解释。这种金配合物自远古以来就被用于金的提炼。复旦大学化学系利用周期性密度泛函理论集成了新的过渡态搜索技术,通过计算彻底解释了乙醇在金属铂上氧化的反应机理,如图2所示。彻底理解这种基础反应将极大的有益于催化剂的设计,可用于直接乙醇燃料电池的开发和生物质产生的含氧化合物的降解。

 

清华大学化学系与复旦大学化学系

    合作通过对各种反应过渡态、反应途径及产物的红外光谱进行的量子化学理论计算发现了金属原子与甲醇的反应产生氢气的反应机理。这项工作指出了催化剂设计的一个新途径,为从甲醇中催化制备氢气提供了新的方向。

 

中国科学技术大学微尺度物质科学国家实验室

    结合扫描隧道显微学实验和第一性原理的理论计算,首次阐释了构建单分子负微分电阻(NDR)器件的一种新的机制,如图5。实现单分子功能器件一直是单分子科学领域的重要研究内容。这一新颖的NDR机制提供了一个新思路,有望从分子轨道层次上来更精确和更可控的实现单分子功能器件。中科院物理所通过利用高分辨原子力显微镜与第一性原理计算相结合的方法,对PTCDA这一有机半导体原型分子在NaCl绝缘体表面的生长模式进行了研究[9]。通过理论计算与实验结合该研究澄清了一种有机功能分子在典型绝缘体表面生长的重要一步,即去浸润生长以及这种生长机制的原因。该项研究结果发现了一种新的分子多层膜生长模式,为组装实用化分子器件的研究奠定了良好基础。

 图5 单分子负微分电阻器件的一种新的机制:局域分子轨道的空间对称性匹配

 

上海应用物理所

    运用分子动力学模拟方法,实现了对纳米管内水和生物分子混合体位置的操控,如图6。这项发现将成为实现纳米管中的实验室(labin-nanotube)构想的关键技术,并有望在纳米技术、生物科技等领域得到广泛应用。

图6 纳米管内水滴-生物分子混合体位置的操控

 

计算生物学和药物设计应用

    在计算生物学和药物设计方面,基于谱学等技术的生物物理实验方法在理解生物分子结构及其功能运动方面起到了相当重要的作用。然而,即使是最先进的实验手段,其时间分辨能力与空间分辨能力仍相当有限。基于计算机模拟的理论方法,特别是基于全原子水平的分子动力学模拟,能够给出原子水平的空间分辨能力以及飞秒量级的时间分辨能力,从而能够使人们从原子的尺度上理解生物分子的功能运动及其结构基础。目前,基于计算机模拟的理论计算已经是生物物理领域的一个必不可少的常规手段,它与实验方法相辅相成,共同促进了生物物理学的快速发展。生物体系涉及到生物大分子内部以及生物大分子间极其复杂的相互作用。同时,溶剂以及其它的复杂环境因素对其功能运动有着决定性的影响。因此,要从原子水平精确理解生物体系的运转机制,必须要尽可能真实的体现溶剂,以及复杂环境因素的影响,这些因素的考虑进一步增加了问题的复杂性,常规的简化描述(如粗粒化模型)或解析描述是远远不够的。必须采用全原子水平的长时间尺度的模拟计算。这些计算在一般的个人电脑上是远不能实现的,必须采用高性能并行计算。现在,高性能计算已经成为理解复杂生物现象的重要手段。在生物物理学领域里,HPC的计算特点具有多样性,不是一种容量计算。生物大分子模拟研究,由于涉及到很长的时间演化,对计算速度需求较高,也就是说需要大规模的并行计算。计算中会产生海量的高度相关数据集合,需要对读写速度有较高的要求。同时,生物大分子模拟计算通常需要长时间的稳定运行(几个月),这对硬件的运行稳定性要求较高。另一方面,对于生物信息统计方面的研究,还需要有高的内存容量。生物大分子模拟领域的研究,目前已经有成熟的商业化软件,如AMBER、CHARMM等。这些程序都是可以提供并行计算的。另外用于序列分析等软件也是高度并行化的。

目前,在计算生物学和药物设计领域里应用比较广泛的计算程序包括:AMBER、CHARMM、GROMACS、LAMMPS、DOCK等等。这些研究主要集中在蛋白质行为的模拟、药物分子的筛选和基因测序等方面。

 

 

中科院上海药物所

    通过计算模拟对蛋白质-蛋白质相互作用进行了研究,如图7。蛋白质-蛋白质相互作用(PPI)决定着从转录调节到酶级连反应的几乎所有的生物功能,这方面的研究具有重要的科学价值和应用前景。上海药物所发展的蛋白质-蛋白质相互作用方法为蛋白质功能研究提供了较好的理论工具,是计算生物学研究领域的重要进展。即使只获得蛋白质序列信息,他们的方法依然能够用于任意新蛋白的功能研究或预测老蛋白质的新功能。同时他们的方法也可能应用于设计新的药物,即设计新的化合物或蛋白质调控蛋白质相互作用网络,而不是抑制或激动单一的靶标蛋白。

图7 仅根据蛋白质的序列预测蛋白质-蛋白质相互作用

 

南京大学物理系

    通过计算模拟在蛋白质折叠动力学研究方面取得重要进展[12]。他们的工作利用大规模计算机模拟首次理论研究了金属辅助因子诱导的蛋白质折叠问题,如图8。蛋白质折叠是生物学中心法则中至今仍未解决的一个重要环节。他们的工作发展了一套描述金属离子与蛋白质相互作用的理论模型,在该模型中通过将量子化学的计算结果整合到经典的分子动力学中,从而能够描述金属离子与配位原子间的电荷转移,以及金属离子诱导的去质子化等效应,同时还考虑了金属离子诱导的极化效应。这一模型的建立使得基于计算机模拟研究金属离子耦合的蛋白质动力学过程成为可能。该工作对金属辅助因子诱导的蛋白质折叠的一般规律有了深入的认识。所建立的理论模型可以用于金属离子诱导的蛋白质折叠、聚集以及其它功能运动等常规分子动力学模型无法描述的蛋白质动力学过程。

图8 金属辅助因子诱导的蛋白质折叠

 

人类基因组南方研究中心

    通过高性能计算与实验相结合,在国际生物医学界上首次对一个多细胞人体寄生虫进行了全基因组测序和功能解析。这项研究发现血吸虫基因组由近4亿个碱基组成,含有40.1%的重复序列,包括新发现的具有转录活性的反转座子25个。研究工作代表了第一个扁形动物基因组序列,是寄生虫研究史上的里程碑,在2009年7月16日出版的国际著名学术刊物Nature上作为封面文章发表。复旦大学化学系通过分子动力学模拟在蛋白质动力学研究方面取得重要进展。他们的工作表明了蛋白质的动力学行为对功能的直接影响,并且结构域之间在行使功能时具有相关性,如图9。这项工作首次发现了结构域之间大范围的构像动力学变化可以调节蛋白质与配体结合的强度和选择性。

图9 蛋白质的动力学行为对功能的直接影响

 

 

中科院上海药物所

    通过计算模拟在与糖尿病相关的葡萄糖激酶构象变化机理研究取得进展如图10。葡萄糖激酶是调节血液中葡萄糖水平的重要酶,主要分布于肝细胞和胰岛细胞中。他们通过对葡萄糖激酶进行大规模的分子动力学模拟研究,对葡萄糖激酶激动剂作用原理与其自调节变构酶的机制进行深入系统的阐述。葡萄糖激酶过渡态的机制合理地解释了当前临床常见的突变型病人的特征。这些研究结果为阐述葡萄糖激酶在体内通过自身构象变化调节血糖水平的作用机理以及葡萄糖激酶激动剂的设计奠定了基础。目前,上海药物所科研人员正根据葡萄糖激酶理论模拟结果,进行抗II型糖尿病新药的设计。

 

图10 变构过程中人类葡萄糖激酶的构象转化路径

 

中科院超算中心计算化学组--针对STMV进行了基于深腾7000的NAMD千核性能分析

    NAMD是大规模分子动力学并行计算软件包,NAMD是当前用来在分子水平上进行生命过程模拟研究的主要软件之一。我们在中国科学院计算机网络信息中心的“深腾7000”百万亿次超级计算机上进行了移植和优化,并对STMV典型的烟草花叶卫星病毒进行了2048处理器核的模拟计算,计算测试表明取得了较好的加速效果。

 

图片说明:STMV(Satellite Tobacco Mosaic Virus,卫星烟草花叶病毒),依赖于病毒才能复制,并能干扰或辅助病毒的复制,改变病毒的致病能力,及具有维持本身遗传性的株系特异性的性质,可用于病毒病的生物防治,具有广阔的前景。通过动力学模拟,可分析并提出STMV可能的组装通道和分解过程机理,同时NAMD的STMV计算具有较理想的加速比。

      

 北京生命科学研究院

    基于经典物理学理论的分子动力学模拟是研究生物大分子结构和功能的重要工具。然而,分子动力学模拟对计算资源的巨大需求,限制了其在生物领域的应用。近年来,得益于计算资源的迅猛增长及生物大分子体系模拟理论和算法的日趋成熟,计算化学方法逐渐被广泛应用于生物学领域。其主要通过经典分子力学计算实时地模拟生物体系中各个原子的微观运动,结合统计力学原理研究体系的宏观物理化学性质,从而允许我们获得目前实验条件下难以观测到的微观动态情况预测可能进行的实验过程以及在原子水平上分析和解释实验结果;设计和开发新型结构的活性化合物

分子动力学模拟的高性能计算

    在生物大分子的分子动力学模拟中,每步计算的规模之大加上需要计算的步骤之多,要求必须具有极高性能的超级计算机,才能真正意义上实现生物学有意义的时间尺度的模拟工作。以在中科院超算中心深腾7000超级计算机上进行的流感血凝素蛋白(HA)模拟为例,为研究该蛋白在介导膜融合过程中受低pH环境调控的构象变化,从而指导流感膜融合抑制剂的设计,我们构建了H3和H5亚型HA在不同pH环境中的数十个模拟体系(原子数在200,000~400,000),运用高度并行化的D e s m o n d分子模拟软件,进行了最高1024核的动力学模拟(128,256,512,1024核并行效率分别为95%,91%,75%,65%),模拟时间在100 ns级别,总模拟计算量达到70 CPU年。

 

高性能分子动力学模拟在生物大分子研究中的应用

蛋白质折叠

    对蛋白质如何从一级序列折叠成具有生物学功能的特定三维结构问题(蛋白质折叠问题)的理解,是研究蛋白质序列和结构关系的关键步骤。对此机理的研究,有助于预测蛋白质结构,研究蛋白质复合化等基础生物学问题,促进药物分子的设计。虽然不同的蛋白质序列不同,但折叠背后的物理化学原理却是一样的,因此基于物理学原理的理论方法对研究蛋白质折叠有着广泛适用性。随着高性能计算的发展,基于物理学原理的蛋白质折叠将不再是一个遥不可及的梦想。1998年,UCSF的Yong Duan和Peter Kollman在Cray 3E超级计算机上开展了第一个微秒级的蛋白质折叠分子动力学模拟,有力地推动了分子动力学的并行计算研究,堪称分子动力学历史上的一次壮举。

蛋白质动态变化

    随着高性能计算的发展,分子动力学模拟的时间尺度逐渐增大到微秒级别,理论与实验有了更多的机会结合,从而各取所长,更好地帮助人们理解蛋白质的动态过程。

                                                                               

         起始态      中间态1     中间态2     稳定态

 

 

       上图为蛋白质折叠示意图。蛋白质(Viliin Headpiece)从一个虚拟的伸展构象出发,渐渐折叠成稳定的天然构象(PDB 1VII),折叠的中间状态。

 

    高性能计算的发展, 使分子动力学模拟能够更好地研究蛋白质结构、动态变化过程和功能之间的关系。模拟时间尺度逐渐被推进到微秒级别,毫秒级别的全原子模拟也有希望在几年内出现。这使得模拟得到的结果能够真正跟实验做比较,和完成目前实验难以实现的研究。理论计算与实验的结合,对于生物大分子乃至整个生命科学的研究,将会是一个极大的促进。

 

中国科学院大连化学物理研究所分子反应动力学国家重点实验室

    生物体系结构和功能比较复杂,对其进行简单的振动柔性分析,研究构象变化以及原子分子之间相互作用势的精确度问题等都非常费时费力。我们可以将研究体系分割成合适的小片段后,使用量子化学程序进行精确计算,再采用MFCC结合REMD技术来研究生物体系精确作用问题。

    NWCHEM软件计算不同规模大小的“多肽”体系在深腾7000的不同架构节点上随处理器核数的加速效率,以确定大生物体系分割研究片段的大小和计算采取的处理器核数,并以此分析NWCHEM软件在生物体系研究中的适用性。

    分子反应动力学国家重点实验室针对我国自主研发的千万亿次超级计算机提出并发展了一种新的蛋白质模拟系统,把目前国际上最好的分子构象取样技术之一,副本互换技术(REMD)与最准确的原子分子相互作用势计算技术之一,多碎片共轭帽技术(MFCC)巧妙的结合起来,充分利用超级计算机的并行计算能力进行准确的蛋白质折叠机理研究。依照本套理论,我们可以将所研究的体系分割成合适的小片段后,使用合适的量子化学软件对各个片段在高性能计算机上进行并行计算分析,得到片段的resp电荷。之后,采用MFCC技术将片段组合后,还原整个大分子体系的电子性质。最后,利用REMD方法进行分子动力学分析,可以得到我们所研究体系的总结果。这种方法既能精确求解生物体系相互作用,又节省了计算资源和计算时间。

选项为:

编译器:Intel 编译器 11.0

数学库:NWCHEM自带BLAS库

并行库:Openmpi 1.3.3

采用深腾7000上的厚节点与刀片节点进行计算,相关配置如下:

厚节点:IBM X3950M2服务器,每个厚节点配置16颗4核Xeon处理器X7350,主频2.93GHz,512GB内存

刀片节点:每个刀片节点配置两颗四核Xeon处理器E5450,主频3.00GHz,32GB内存。

 

分子动力学模拟方法研究蛋白质与纳米颗粒的相互作用

中国科学院上海应用物理研究所

复旦大学物理系理论生命研究中心

    分子动力学方法是基于分子力场,通过数值求解牛顿动力学方程来模拟原子与分子运动的计算机模拟方法。利用分子动力学能模拟分子系统与时间相关演化轨迹,研究分子系统的热力学与动力学性质。随着计算机技术的高速发展,分子动力学模拟被广泛的应用于生物分子与纳米材料研究。以单壁碳纳米管与WW蛋白结构域为例,介绍如何使用分子动力学模拟研究蛋白质与纳米颗粒之间的相互作用。研究发现,单壁碳纳米管能够插入到蛋白质的核心中,且正好阻挡了YAP65WW蛋白结构域的功能位点,从而可能导致YAP65WW蛋白结构域功能的丧失。

 

    结果表明,分子动力学模拟提供了一种全新的从分子层次上研究纳米颗粒毒性机制的方法。分子模拟的方法就是其中的一种常用的数值计算实验方法,它能够很好的重现微观世界中,分子相互作用与运动过程,让我们能更加直观的研究原子与原子、分子与分子之间相互作用。而且相对于实验它简单且耗时少,能为我们理解生物分子系统与纳米系统的热力学与动力学特性提供很好的洞察力。

    在深腾7000百万亿次超级计算机上,NAMD对于生物分子体系的模拟千核应用效率测试结果很好。在接下来的工作中寻找对提高NAMD运行效率的编译方法和配置合理的计算输入文件定将取得更好的应用效率测试结果。随着对未知世界的探索,在生物学研究领域,生物分子的体系越来越大,对这些领域的研究分析不仅需要高效率的硬件平台,还必须专业的软件和编译环境。当前,超级计算越来越普及,甚至更大规模并行计算的计算机层出不穷。这样作为用于在大规模并行计算机上快速模拟大分子体系的并行分子动力学代码,NAMD具有更加广泛的应用领域和更美好的应用前景。



 

左:天然状态下YAP65WW 结构域与其配体结合图;中:单壁碳纳米管与YAP65WW 结构域形成的复合物的结构示意图;右:蛋白YAP65WW-单壁碳纳米管复合物与其配体相互作用示意图

    我们以单壁碳纳米管与YAP65WW蛋白结构域为例,介绍了如何使用分子动力学方法研究蛋白质与碳纳米管的相互作用。在模拟中,我们发现单壁碳纳米管能够插入蛋白质的核心,并形成稳定的蛋白质碳纳米管复合物。通过分子动力学,我们还展示了整个相互作用的过程。而通过进一步分子动力学模拟,我们证实了这种复合物的形成会影响蛋白质正常功能的行使。这一发现对于了解蛋白质与纳米颗粒相互作用,以及纳米颗粒的毒性机制是很有帮助的。

总而言之,当前计算机模拟已经成为科学研究中一个非常重要的工具。与实验相比,计算模拟成本较低、受环境的制约性小、安全性高、且能研究极快的化并得到较好的准确度等。另一方面“计算的目的是洞察,而非数据(The purpose of computing is insight,not numbers)。需要指出的是在研究中,要做到有的放矢是关键。我们相信随着计算机技术的高速发展,计算机模拟的方法必将为我们了解微观与介观问题提供更强的洞察力。

转载地址:http://agkli.baihongyu.com/

你可能感兴趣的文章
Magento在代码中调用静态块
查看>>
初步总结SEO--个人分析!
查看>>
seo - 如何彻底阻止百度对网站的爬行
查看>>
SEO
查看>>
关于rel="nofollow"
查看>>
magento 模块重写机制
查看>>
来一篇英文转载文章---magento----widgets
查看>>
SEO方案一般步骤
查看>>
网站单页面优化的6个技巧
查看>>
个人对magento整体的理解
查看>>
在magento中如何调用static block
查看>>
Magento事件一览表
查看>>
magent controller
查看>>
magento--12--24--2010
查看>>
MAGENTO数据转移/换服务器/换域名
查看>>
强制增加magento用户
查看>>
获取数据!!
查看>>
magento ----后台grid模块的加载 --以news插件为例个人分析(一)
查看>>
站长制定网站的SEO策略步骤
查看>>
站长浅谈企业网站多个关键字的优化方法
查看>>