首页  >  超算应用  >  并行优化

  并行优化  

程序移植与优化

国家超级计算深圳中心研发团队在并行软件开发方面经验丰富,可以为用户提供并行程序开发、串行代码并行化、并行程序性能评测与调优、异构平台移植等服务。

程序开发:并行程序设计、软件移植、软件性能测试

性能优化:并行算法优化、多层次性能优化


典型案例 1 

大规模实空间密度泛函理论计算软件研发—SPARC,基于高阶有限差分法的密度泛函理论计算比主流平面波软件快一个数量级支持线性标度DFT方法,可计算百万原子体系。团队基于软件计算特点,设计多层次并行模式;使用matrix-free 的方式进行 stencil 计算,减少通信量、加快计算速度,同时降低内存占用;采用MPI中的局部通信函数 MPI_Neighbor_alltoallv 代替全局通信 MPI_Alltoallv并使用非阻塞通信来实现计算/通信的重叠,减少通信开销;并成功移植到华为鲲鹏架构平台,获得华为应用创新大赛金奖。

图片3.jpg


典型案例 2 

气象资料同化算法大规模并行研究:分析发现程序在处理数据时,对观测数据进行循环处理,耗时较多,并且程序扩展性较弱,在从 256 核上升到 1024 核时,计算时间甚至有所上升,这是因为进程增加导致通信开销增大导致。进一步分析发现,串行时的处理大量观测数据在并行时,对观测数据缺乏合适的并行计算方法,导致在多进程运行时,每个进程读取和处理了大量观测数据,不利于进行并行优化,也不利于进程间的通信。因此需要对观测资料重新进行并行算法设计和优化。团队针对处理雷达观测设计了并行算法,使得进程在程序开始运行时,能够直接获取所需的雷达站点、所需雷达数据的空间覆盖范围,从而避免获取和处理不在进程映射的模式区域内的数据。结合串行时进行的优化,进行观测数据的并行算法设计后,在不同并行进程数量下,MOTOR-DA 整理的运行速度提升了 5%到 20%。同时,对不均匀的雷达数据空间分布做出新的区域划分方案。在采用新的区域分解方法后,模式运行速度得到进一步提升,运行时间减少了约 20%。

业务咨询及参观访问:0755-86576085    0755-86576086
地址:深圳市南山区桃源街道大学城社区笃学路9号
国家超级计算深圳中心(深圳云计算中心)  ©2014  粤ICP备10220126号
微信公众号