题名SPU加速器上矩阵乘的编译优化研究
作者刘艳娜
答辩日期2018-05-18
文献子类硕士
授予单位中国科学院研究生院
授予地点北京
导师陈莉
关键词矩阵乘法 编译优化 指令映射 数据流体系结构 异构众核系统
学位专业其它专业
英文摘要稠密矩阵乘在高性能计算和神经网络领域都有广泛应用。发掘矩阵乘在众核处理器上的并行性能具有重要的现实意义。 中科院计算所研制了新型的异构众核处理器SPU,它提供了SIMD并行、上下文并行以及数据流并行的多种并行性。SPU优化编译器支持高级语言编程,是SPU处理器实用化的关键。为了充分利用SPU的硬件优势,提高目标代码的浮点效率,本人参与了SPU编译器的功能扩展和原型实现,扩展了对类矩阵乘模式的编译支持,优化了应用性能。 本文的主要贡献如下: 1.提出了自动发掘SPU的SIMD并行性的编译方法,并进行了原型实现。基于SPU的SIMD-4并行结构特征,针对类矩阵乘的规约循环,分析了SIMD并行的相关问题,实现了SIMD并行算法和向量访存指令的shuffle生成算法。 2.对矩阵乘进行了多种指令级优化,包含新的公共子表达式优化策略,子图聚合算法。基于LFMADD指令的子图聚合算法解决了基础矩阵乘实现中关键路径长、浪费浮点乘加部件的问题;对于五个典型程序的测试表明,公共子表达式优化策略的性能相比于传统的CSE最高提升了9.16%。 3.提出对计算模式拓扑敏感的指令映射算法。该算法将格点的拓扑位置与SPU上的计算节点结构相匹配,优化了PE负载平衡和通信开销。实验评估表明该算法给五个典型的矩阵乘程序分别带来了14.40%-31.13%的性能提升。
语种中文
学科主题程序设计及其语言
公开日期2018-06-22
内容类型学位论文
源URL[http://ictir.ict.ac.cn/handle/311040/2831]  
专题中国科学院计算技术研究所学位论文_2018硕士
推荐引用方式
GB/T 7714
刘艳娜. SPU加速器上矩阵乘的编译优化研究[D]. 北京. 中国科学院研究生院. 2018.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace