第一性原理计算案例

项目背景

中科院某研究所用户主要研究基于有限元计算、分子动力学模拟和第一性原理计算对薄膜等离子气相沉积制备和结构特点与服役行为(力学、摩擦学等)进行跨尺度辅助计算,从而通过与试验结果的耦合来深入揭示其分子原子结构特点、受力过程薄膜应力变化以及材料变形和摩擦学损失过程等。


核心需求

用户打算建设一套高性能计算平台,用于课题组分子动力学模拟和第一性原理计算,以及其他科研计算任务。要求高性能计算平台能够根据应用任务的不同需求,对硬件资源动态分配和调整平台资源,管理计算作业。用户通过局域网或者现场提交计算作业、获取计算结果,并能够根据权限调整,实现权限控制,硬件细节对用户透明。用户界面实现图形化交互窗口和SSH登陆相结合方式。平台支持同时运行MSVaspLammps等应用软件,并支持C/C++Fortran77/90等语言的编译和运行环境,以保证课题组自编应用程序的计算求解需求。


解决方案

根据我们对用户高性能计算平台需求的调研分析,以及我们在其他科研单位的高性能计算平台建设经验,结合实际应用需求、当前计算规模大小、存储需求量等一系列的因素,充分结合总体设计原则,针对用户高性能计算应用的特点,从满足应用需求的角度出发,建立一个高可靠性、可扩展、易使用的高性能计算平台环境。主要是基于计算节点、GPU节点、存储节点、管理节点、计算网络、管理网络、机柜系统、操作系统、作业调度管理系统、硬件集群管理系统、并行计算环境、函数库、编译器、应用软件等软硬件,建设软硬件一体化的高性能计算集群系统。


计算节点

计算节点是高性能计算平台的核心节点,承担着计算、分析、求解的核心任务,计算节点的计算性能决定了整个高性能计算平台所具有的计算能力。本方案的计算节点采用了多台先进的四路CPU服务器风虎云龙R215,支持4Intel Xeon Scalable系列处理器,每个处理器支持高达28核心。


GPU节点

GPU节点主要用来计算Lammps等软件,由于LammpsGPU支持较好,相同预算下,GPU节点计算LammpsCPU计算节点具有更快速度。本方案的GPU节点采用了GPU服务器风虎云龙R85,支持8块双槽位GPU卡,每块GPU卡支持高达10,752 CUDA核心,显存高达48GB


存储节点

存储节点作为高性能计算平台采集数据存放和计算结果存放节点,存储容量、读写速度、安全性是其主要技术指标。本方案的存储节点采用了24个热插拔硬盘位的存储服务器风虎云龙R424,这种存储服务器集合了I/O节点和存储功能为一体,最大支持480TB硬盘,通过独立Raid卡构建RAID5磁盘阵列,磁盘阵列读写速度高达1.6GB/s,磁盘阵列还具有保障数据安全性的功能,任意一个硬盘损坏不会导致存储的数据丢失。


管理节点

管理节点用来承接外部用户接入集群系统,进行程序编译、调试、并行计算任务的分发与部署,此节点还安装有集群管理软件,作为主节点对整个集群进行管理、监控,以及作业调度等工作。本方案的管理节点采用了风虎云龙R210,冗余电源和冗余散热风扇设计,并且构建了冗余性的磁盘阵列,保证了管理节点的高可靠性。


计算网络

高性能计算平台的所有节点需要通过高速的计算网络实现互联,高速的计算网络主要用于计算节点之间进行MPI通讯,交换节点应用进程信息和计算数据,也可以用于存储节点的存储数据传输。本方案计算网络采用了先进的Infiniband网络,以其高速带宽和低延迟的优秀性能,极大提升计算节点之间的通讯效率,和存储节点数据传输效率,以更快的速度完成复杂的计算任务。


管理网络

高性能计算平台的管理网络采用千兆以太网交换机搭建。所有高性能计算集群的计算节点、GPU节点、存储节点和管理节点都通过千兆以太网交换机连接起来,构成统一的IP网络环境。


集群管理系统

为了更好地管理和监控集群系统,方便系统维护,必须配置有效、实用和友好界面的集群管理软件。集群管理软件可以有效地管理大量的计算节点、GPU节点和存储节点,借助集群管理软件,只需在单一显示屏上单击鼠标即可访问所有的计算节点,可以监控、暂停、启动、重启或关闭选定的任何节点。还可以连接到集群中的多个节点,并通过一次键盘输入以广播的方式向其发出命令。在集群状态监控上,系统提供一整套基于WEB的组件用于监控自身的活动及配置状况,如处理器、内存及交换分区使用情况、网络负载、节点状态等。


作业调度系统

作业调度系统为每个用户提供一个接口,用户通过这个接口提交自己的计算任务,计算完成后会反馈结果给用户,用户只用指定需要的资源,如CPU核心数、内存大小,而不用关心程序是在哪个节点,使用哪个CPU完成的。用户还可以对自己的队列进行管理,提交任务后可以查看自己任务的工作状态,改变多个任务的执行顺序,暂停或删除已提交任务。图形化的交互界面,采用应用虚拟化技术将数值模拟软件的使用方式完全通过网络透明的提供给用户使用,保证系统使用的易用性。最终用户和IT基础结构的复杂性相分离,既简化了用户操作,又提高了用户的工作效率。 系统的可扩展性非常好,集群系统计算能力的扩展和设备的增减,不会影响前端用户的工作。


软件环境

高性能计算平台基于Linux操作系统,集成CUDA开发环境,OpenMPI, MPICH并行计算环境,GNU C/C++编译器,GNU Fortran编译器,LAPACK, BLAS, Atlas, FFTW等高性能计算函数库。 


应用软件

在保证正版软件授权的情况下,还安装了VASP, MS, Lammps等常用或者客户指定的科学计算软件,并且提供应用软件使用方面的技术支持。


培训

高性能计算平台定制完备的集群使用说明书,原厂工程师上门提供集群系统使用培训,包括系统管理员培训和普通用户培训,培训方式为集中会议式培训和上机培训相结合。


方案价值

高可靠性

高性能计算平台的存储节点和管理节点的硬盘均构建了高可靠性的磁盘阵列,计算节点、GPU节点、存储节点、管理节点均采用冗余电源,冗余散热风扇系统,每台机器出厂前的一系列测试如40度温度下24小时满负载运行散热测试,72小时不宕机测试,GPU性能测试,CPU逐核测试,内存压力测试,硬盘I/0测试,网络带宽和延迟测试等,都保证了高性能计算平台的高可靠性。


易使用

集群管理软件支持集群监控、告警、管理、报表等多项功能,系统还具有丰富的用户权限管理功能,可设置管理员权限、超级用户权限、普通用户权限等,解决管理员的后顾之忧。作业调度系统提供图形化界面和命令相结合的方式,满足不同用户使用需求,可以有效降低用户使用难度。同时,对管理员的培训和对系统的运维支持,对普通用户的培训和上机演练,也能有效提高集群管理员的管理水平,和普通用户使用集群的熟练程度。应用软件的安装调试和应用软件使用的技术支持,能够帮助用户更容易去使用集群开展科研工作,让用户能够把宝贵的时间用于科研本身。


可扩展

高性能计算平台配置了多台计算节点、GPU节点和存储节点,未来可以增加计算节点、GPU节点和存储节点实现在线扩展,集群管理软件具有将一个计算节点系统配置向集群中的所有计算节点传播的功能,扩展计算节点非常方便。


相关产品推荐

扫描二维码

关注风虎官方信息

 版权所有 © 上海风虎信息技术有限公司 沪ICP备15020139号-1 电话:4001-863-973

客服中心
全国咨询热线
4001-863-973
二维码
微信咨询
添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了