基于Risc的Chinite

7月18日,第5届RISC-V中国峰会参加了上海的次级课程。作为未来电子行业的最大应用领域之一,人工智能是不可避免的话题。人工智能的快速发展推动了基础建筑的变化,计算强度需求的平均年增长率超过100%。 “开放,灵活和可定制的” RISC-V已成为发展AI计算独立力量的基础的战略支点。人工子部邀请各方的公司讨论RISC-V架构如何使用开放资源,开放和测量的功能来实现AI计算体系结构的变化,以及AI软件和Hardware中RISC-V架构应用程序的最新开发和实施。阿里巴巴该死学院的高级开发工程师徐彭(Xu Peng)分享了该地区部署和优化Xuantie AI大型模型的技巧。作为发展高级的先驱Xuanten团队在中国的Performance RISC-V处理器IP一直领导国内RISC-V的建筑边界,以AI应用扩展技术。 Xu Peng提出,到2025年3月底,“ Maopa社区”开放资源的数量超过52,000,与此同时,“ Qianwen模型家族”及其衍生型号超过100,000。不仅传统模型的数量很大,而且大型模型也出现在不同的行业和行业中。 Xuantie正在积极促进向量和AME。目前,RISC-V社区的当前向量已经准备就绪,AME也正在快速移动。基于上述业务和更新中的一部分,对上部软件堆栈提出了更高的要求。特别是对于AI的Xuantenn处理器功能的发展,Xuanten在2019年初开始执行矢量0.7.1,其次是向量1.0,然后是巨大的Pytorches和AME单位。最近,Xuanten更新了第二代AME单位。 Xuantie硬件正在不断更改Pytorch和AME单元,提高计算能力,增加数据类型支持,加速特殊操作以及针对LLM方案的有针对性增强。下图显示了与Xuantie和硬件生态系统有关的业务需求,Xuantie AI部署工具集HHB。 Xuantie AI的工具集包括三个级别,包括HHB AICompiler,HHB InnxRuntime和HHB-Ortorch。 Xuantie的另一个重要任务是Pytorch扩展。为了为Pytorch提供良好的支持,一方面,用户可以在没有痛苦的情况下切换到RISC-V硬件,另一方面,他们可以重复使用Pytorch当前成熟的生态系统生态系统并扩展RISC-V的AI功能。特别是在Xtorch中,Xtorch为大型型号和MOE模型提供了一个融合操作员系列,端到端的性能提高了11.2%。同时,在此级别的用户部署也很方便,提供了一些基本算法,并具有出色的capabilitIES用于大型型号。示例:AWQ,GPTQ等,还提供了诸如Q80之类的多层次和多精确数量功能。让我们看看Xtorch如何加速大规模推理。下图作为典型的图。 Ormer范式进行大规模推理。在最简单的过程中,我们只需要输入两行代码即可启用XTORCH即可达到Pytorch最加速的加速度。右边是Xtorch中的一些工作,例如MOE的操作员融合,以及其他一些常规的融合操作员和模型优化功能。第三个工作开发是黑铁运行时引擎和黑铁操作员图书馆。 Xuan Iron NN库支持对静态和动态图的理解,并支持许多类型的数据和新类型的数据(例如FP8和FP4)的理解,这些数据需要在当前的大型模型中使用。计算工作进入Xuantenn的NN操作后,整个计算任务将一一划分为操作,以执行适用于单个核心操作的操作。 Xuananen提供了螺纹之间的负载负载,以开发最终的多核侵制。同时,在理解大型模型的过程中,Xuan Tie将通过模型的单个大型计算模型作为相同的计算流程进行处理,然后通过全球检查整个计算流量的检查,并行运行硬件的能力将最大化,并通过图将完成性能提高了20.5%。基础层是流数据单元中的抽象矩阵和向量,并同时调整所有计算和通信活动,这可以减少硬件等待时间,而不是传统实施方法。 Xuantie团队的优势可以执行协调的软件和硬件优化,并且可以在并行功能中使用来加速SoftMax计算。硬件将根据满足需求,并最终开发了一系列DUP的说明,这些说明最终将发展出软效果,并通过闭环加速度增加8倍。在矢量方面,大型模型中使用的话语将使用Sigmoid和故障操作,而黑色钢制硬件将专门创建操作速度。例如,Sigmoid和Silu操作员将改善5倍。与FP16和竞争对手相比,加速度的效果几乎高3倍。
请尊重我们的辛苦付出,未经允许,请不要转载澳门新葡澳京APP_澳门新葡游戏网登录入口的文章!

下一篇:没有了