MIT开发机器学习工具以使代码运行更快

2020年01月07日 由 KING 发表 54482 0

麻省理工学院的研究人员建立了一个新的基准测试工具,可以准确预测给定代码在计算机芯片上执行所花费的时间,这可以帮助程序员调整代码以提高性能。


为了使代码尽可能快地运行,开发人员和编译器(将编程语言转换为机器可读代码的程序)通常使用的是性能模型,这些模型通过模拟给定的芯片体系结构来运行代码。编译器使用该信息来自动优化代码,而开发人员使用该信息来解决将运行该代码的微处理器的性能瓶颈。但是,机器代码的性能模型是由相对较少的专家小组手写的,并且未经适当验证。所以,模拟的性能测量通常会偏离实际结果。


在去年的一系列会议论文中,研究人员描述了一种新颖的机器学习管道,该管道可自动执行此过程,从而使其变得更轻松、更快、更准确。在6月举行的国际机器学习大会上发表的一篇论文中,研究人员介绍了Ithemal,这是一种神经网络模型,它以“基本块”(计算指令的基本摘要)的形式训练标记数据,以自动预测给定芯片执行以前看不见的基本块需要多长时间。结果表明,Ithemal的性能要比传统的手动调整模型精确得多。


然后,在11月举行的IEEE国际工作负载表征研讨会上,研究人员展示了来自各个领域的基本模块的基准套件,包括机器学习、编译器、密码学和可用于验证性能模型的图形。他们将超过300000个已分析的块合并到一个名为BHive的开源数据集中。在评估过程中,Ithemal预测了英特尔芯片运行代码的速度要比英特尔自身构建的性能模型还要好。 


最终,开发人员和编译器可以使用该工具来生成代码,这些代码可以在越来越多的多样化“黑匣子”芯片设计上更快,更高效地运行。论文的作者迈克尔·卡宾(Michael Carbin)说:“现代计算机处理器不透明,极其复杂且难以理解。编写对这些处理器执行得尽可能快的计算机代码也面临着巨大的挑战。该工具是朝着对这些芯片的性能进行完全建模以提高效率的重要一步。”最近,在12月NeurIPS会议上提交的论文中,该团队提出了一种自动生成编译器优化的新技术。具体来说,它们会自动生成一个名为Vemal的算法,该算法将某些代码转换为向量,可用于并行计算。Vemal优于LLVM编译器中使用的手工矢量化算法,LLVM编译器是业界常用的编译器。



从数据中学习


卡宾说,手工设计性能模型可能是“一门妖术”。英特尔提供了超过3000页的文档描述了其芯片的体系结构。但是目前只有一小部分专家将构建性能模型,以模拟这些架构上代码的执行。英特尔的文档没有错误但也不完整,并且英特尔省略了某些要点:它是专有的。但是,当您使用数据时,您不需要了解文档。如果有隐藏的东西,您可以直接从数据中学习。


为此,研究人员记录了给定微处理器用于计算基本块指令的平均周期数,基本上是启动,执行和关闭的顺序,无需人工干预。使过程自动化可以快速分析成千上万个块。 



特定领域的架构


在培训中,Ithemal模型分析了数百万个自动剖析的基本块,以准确了解不同的芯片体系结构将如何执行计算。重要的是,Ithemal将原始文本作为输入,不需要手动向输入数据添加功能。在测试中,可以将以前看不见的基本块和给定的芯片提供给Ithemal,并且Ithemal将生成一个数字,指示芯片将以多快的速度执行该代码。 


研究人员发现,Ithemal的准确率(即预测速度与实际速度之间的差异)比传统的手工模型降低了50%。此外,在他们的下一篇论文中,他们表明Ithemal的错误率是10%,而Intel性能预测模型在多个不同领域的各种基本块上的错误率是20%。研究人员说,该工具现在使人们可以更轻松地快速了解任何新芯片架构的性能速度。在特定领域的体系结构,例如Google专门用于神经网络的新型Tensor处理单元,目前正在构建中,但并未得到广泛理解。如果要在某些新架构上训练模型,只需从该架构收集更多数据,通过探查器运行它,使用该信息来训练Ithemal,那么就有了一个预测性能的模型。


接下来,研究人员正在研究使模型可解释的方法。机器学习在很大程度上是一个黑匣子,因此尚不清楚为什么特定模型会做出预测。 Carbin说:“我们的模型说一个处理器要执行一个基本块需要10个周期。现在,我们正在尝试找出原因对于这些类型的工具而言,这是一个很好的粒度级别。”


参考文献:


“Ithemal: Accurate, Portable and Fast Basic Block Throughput Estimation” by Charith Mendis, Alex Renda, Saman Amarasinghe and Michael Carbin.


BHive: A Benchmark Suite and MeasurementFramework for Validating x86-64 Basic BlockPerformance Models by Yishen Chen, Ajay Brahmakshatriya, Charith Mendis, Alex Renda, Eric Atkinson, Ondřej Sýkora, Saman Amarasinghe and Michael Carbin.


“Compiler Auto-Vectorization with Imitation Learning” by Charith Mendis, Cambridge Yang, Yewen Pu, Saman Amarasinghe and Michael Carbin.

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消