SPU加速器上矩阵乘的编译优化研究

CORC > 计算技术研究所 > 中国科学院计算技术研究所 > 中国科学院计算技术研究所学位论文 > 2018硕士

题名	SPU加速器上矩阵乘的编译优化研究
作者	刘艳娜
答辩日期	2018-05-18
文献子类	硕士
授予单位	中国科学院研究生院
授予地点	北京
导师	陈莉
关键词	矩阵乘法编译优化指令映射数据流体系结构异构众核系统
学位专业	其它专业
英文摘要	稠密矩阵乘在高性能计算和神经网络领域都有广泛应用。发掘矩阵乘在众核处理器上的并行性能具有重要的现实意义。中科院计算所研制了新型的异构众核处理器SPU，它提供了SIMD并行、上下文并行以及数据流并行的多种并行性。SPU优化编译器支持高级语言编程，是SPU处理器实用化的关键。为了充分利用SPU的硬件优势，提高目标代码的浮点效率，本人参与了SPU编译器的功能扩展和原型实现，扩展了对类矩阵乘模式的编译支持，优化了应用性能。本文的主要贡献如下： 1．提出了自动发掘SPU的SIMD并行性的编译方法，并进行了原型实现。基于SPU的SIMD-4并行结构特征，针对类矩阵乘的规约循环，分析了SIMD并行的相关问题，实现了SIMD并行算法和向量访存指令的shuffle生成算法。 2．对矩阵乘进行了多种指令级优化，包含新的公共子表达式优化策略，子图聚合算法。基于LFMADD指令的子图聚合算法解决了基础矩阵乘实现中关键路径长、浪费浮点乘加部件的问题；对于五个典型程序的测试表明，公共子表达式优化策略的性能相比于传统的CSE最高提升了9.16%。 3．提出对计算模式拓扑敏感的指令映射算法。该算法将格点的拓扑位置与SPU上的计算节点结构相匹配，优化了PE负载平衡和通信开销。实验评估表明该算法给五个典型的矩阵乘程序分别带来了14.40%-31.13%的性能提升。
语种	中文
学科主题	程序设计及其语言
公开日期	2018-06-22
内容类型	学位论文
源URL	[http://ictir.ict.ac.cn/handle/311040/2831]
专题	中国科学院计算技术研究所学位论文_2018硕士
推荐引用方式 GB/T 7714	刘艳娜. SPU加速器上矩阵乘的编译优化研究[D]. 北京. 中国科学院研究生院. 2018.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们