马上订阅付费资讯
登录 收费注册 我的厦门新闻 设置 登出
登录×
电子邮件/用户名
暗码
记着我
特殊筹谋

华为云ModelArts深度学习技能再创新高

斯坦福DAWNBench:华为云ModelArts深度学习训练环球最快;斯坦福最新深度学习测试:华为云ModelArts排名天下第一。

克日,斯坦福大学公布了DAWNBenchmark最新结果,在图像辨认(ResNet50-on-ImageNet,93%以上精度)的总训练工夫上,华为云ModelArts排名天下第一,仅需10分28秒,比第二名提拔近44%。结果证明,华为云ModelArts完成了更低本钱、更疾速度、更极致的体验。

斯坦福大学DWANBench是用来权衡端到真个深度学习模子训练和推感性能的国际权势巨子基准测试平台,相应的排行榜反应了以后环球业界深度学习平台技能的抢先性。盘算工夫和本钱是构建深度模子的要害资源,DAWNBench提供了一套通用的深度学习评价目标,用于评价差别优化计谋、模子架构、软件框架、云和硬件上的训练工夫、训练本钱、推理耽误以及推理本钱。

斯坦福大学DAWNBenchmark最新结果

斯坦福大学DAWNBenchmark网页链接:

https://dawn.cs.stanford.edu/benchmark/

作为人工智能最紧张的底子技能之一,比年来深度学习也渐渐延伸到更多的使用场景。随着深度学习模子越来越大,所需数据量越来越多,深度学习的训练和推感性能将是重中之重。华为云ModelArts将联合华为在AI芯片、硬件、云办法、软件和算法的全栈上风,打造更快的普惠的AI开辟平台。

下文将深化剖析,华为云ModelArts怎样做到功能极致——128块GPU,ImageNet训练工夫10分钟。

1. 深度学习已遍及使用,模子增大、数据增长,深度学习训练加快的需求日益剧增

比年来,深度学习曾经遍及使用于盘算机视觉、语音辨认、天然言语处置惩罚、视频剖析等范畴,可办事于视频监控、主动驾驶、搜刮保举、对话呆板人等场景,具有辽阔的贸易代价。

为了到达更高的精度,通常深度学习所需数据量和模子都很大,训练十分耗时。比方,在盘算机视觉中,要是我们在ImageNet[1]数据集上用1块V100 GPU训练一个ResNet-50模子, 则必要耗时快要1周。这严峻拦阻了深度学习使用的开辟进度。因而,深度学习训练加快不停是学术界和产业界所存眷的紧张题目,也是深度学习应重要用的痛点。

Jeremy Howard等几位传授领衔的fast.ai以后专注于深度学习加快,在ImageNet数据集上用128块V100 GPU训练 ResNet-50模子的最短工夫为18分钟。

但是,近来BigGAN、NASNet、BERT等模子的呈现,预示着训练更好精度的模子必要更强盛的盘算资源。可以预见,在将来随着模子的增大、数据量的增长,深度学习训练加快将变得会越发紧张。只要拥有端到端全栈的优化本领,才气使得深度学习的训练功能做到极致。

[1] 文中所指的ImageNet数据集包罗1000类个种别,共128万张图片,是最常用、最经典的图像分类数据集,是原始的ImageNet数据的一个子集。

2. 华为云ModelArts发明新记录,“极致”的训练速率

华为云ModelArts是一站式的AI开辟平台,曾经办事于华为公司外部各大产物线的AI模子开辟,几年上去曾经积聚了跨场景、软硬协同、端云一体等多方位的优化履历。ModelArts提供了主动学习、数据办理、开辟办理、训练办理、模子办理、推理办事办理、市场等多个模块化的办事,使得差别层级的用户都可以或许很快地开辟出本身的AI模子。

图1. 华为云ModelArts功效视图

在模子训练部门,ModelArts经过硬件、软件和算法协同优化来完成训练加快。尤其在深度学习模子训练方面,华为将漫衍式加快层笼统出来,构成一套通用框架——MoXing(“模子”的拼音,意味着统统优化都围绕模子睁开)。接纳与fast.ai一样的硬件、模子和训练数据,ModelArts可将训练时长可收缩到10分钟,发明了新的记录,为用户节流44%的工夫。

图2. 基于MoXing和ModelArts的训练速率提拔

3.漫衍式加快框架MoXing

MoXing是华为云ModelArts团队自研的漫衍式训练加快框架,它构建于开源的深度学习引擎TensorFlow、MXNet、PyTorch、Keras之上,使得这些盘算引擎漫衍式功能更高,同时易用性更好。

高功能

MoXing内置了多种模子参数切分和聚合计谋、漫衍式SGD优化算法、级联式混淆并行技能、超参数主动调优算法,而且在漫衍式训练数据切分计谋、数据读取和预处置惩罚、漫衍式通讯等多个方面做了优化,联合华为云Atlas高功能办事器,完成了硬件、软件和算法协同优化的漫衍式深度学习加快。

图3. 华为云MoXing架构图

易用:让开辟者聚焦业务模子,无忧其他

在易用性方面,下层开辟者仅需存眷业务模子,无需存眷基层漫衍式相干的API,仅需凭据现实业务界说输出数据、模子以及相应的优化器即可,训练剧本与运转情况(单机大概漫衍式)有关,下层业务代码和漫衍式训练引擎可以做到完全解耦。

4.从两大目标看MoXing漫衍式加快要害技能

在权衡漫衍式深度学习的加快功能时,重要有如下2个紧张目标:

1)吞吐量,即单元工夫内处置惩罚的数据量;

2)收敛工夫,即到达肯定的收敛精度所需的工夫。

吞吐量一样平常取决于办事器硬件(如更多、更大FLOPS处置惩罚本领的AI加快芯片,更大的通讯带宽等)、数据读取暖和存、数据预处置惩罚、模子盘算(如卷积算法挑选等)、通讯拓扑等方面的优化,除了低bit盘算和梯度(或参数)紧缩等,大部门技能在提拔吞吐量的同时,不会形成对模子精度的影响。为了到达最短的收敛工夫,必要在优化吞吐量的同时,在调参方面也做调优。要是调参调的欠好,那么吞吐量偶然也很难优化上去,比方batch size这个超参不敷够大时,模子训练的并行度就会较差,吞吐量难以经过增长盘算节点个数而提拔。

对用户而言,终极体贴的目标是收敛工夫,因而MoXing和ModelArts完成了全栈优化,极大收缩了训练收敛工夫。在数据读取和预处置惩罚方面,MoXing经过使用多级并发输出流水线使得数据IO不会成为瓶颈;在模子盘算方面,MoXing对下层模子提供半精度和单精度构成的混淆精度盘算,经过自顺应的标准缩放减小由于精度盘算带来的丧失;在超参调优方面,接纳静态超参计谋(如momentum、batch size等)使得模子收敛所需epoch个数降到最低;在底层优化方面,MoXing与底层华为自研办事器和通讯盘算库相联合,使得漫衍式加快进一步提拔。

5.测试结果比拟,用数听说话

一样平常在ImageNet数据集上训练ResNet-50模子,当Top-5精度≥93%大概Top-1 精度≥75%时即可以为模子收敛。

我们测试的模子训练收敛曲线如下图所示。此处Top-1和Top-5精度为训练集上的精度,为了到达极致的训练速率,训练历程中接纳了分外历程对模子举行验证,终极验证精度如表1所示(包罗与fast.ai的比拟)。图4(a)所对应的模子在验证集上Top-1 精度≥75%,训练耗时为10分06秒;图4(b)所对应的模子在验证集上Top-5 精度≥93%,训练耗时为10分58秒。

图4. ResNet50 on ImageNet训练收敛曲线(曲线上的精度为训练集上的精度)

所对应的模子在验证集上Top-5 精度≥93%,训练耗时为10分58秒。

表1. MoXing与fast.ai的训练结果比拟

6. 将来预测——更快的普惠AI开辟平台

华为云ModelArts努力于为用户提供更快的普惠AI开辟体验,尤其在模子训练这方面,内置的MoXing框架使得深度学习模子训练速率有了很大的提拔。正如前所述,深度学习加快属于一个从底层硬件到下层盘算引擎、再到更下层的漫衍式训练框架及其优化算法多方面协同优化的结果,具有全栈优化本领才气将用户训练本钱降到最低。

后续,华为云ModelArts将进一步整合软硬一体化的上风,提供从芯片(Ascend)、办事器(Atlas Server)、盘算通讯库(CANN)到深度学习引擎(MindSpore)和漫衍式优化框架(MoXing)全栈优化的深度学习训练平台。而且,ModelArts会渐渐集成更多的数据标注东西,扩展使用范畴,将继承办事于伶俐都会、智能制造、主动驾驶及别的新兴业务场景,在私有云上为用户提供更普惠的AI办事。

现在华为云ModelArts曾经在公测中,接待各人试用。

ModelArts官网:https://www.huaweicloud.com/product/modelarts.html

版权声明:本文版权归厦门新闻中文网全部,未经容许任何单元或小我私家不得转载,复制或以任何其他方法利用本文全部或部门,侵权必究。

读者批评

厦门新闻中文网接待读者颁发批评,部门批评会当选进《读者有话说》栏目。我们保存编辑与出书的权益。
用户名
暗码
设置字号×
最小
较小
默许
较大
最大
分享×