华人澳洲中文论坛

热图推荐

    旷视天元开源 CUDA INT4量化源码完成,助力AI运用落地

    [复制链接]

    2022-9-5 18:38:17 79 0

    当下人工智能技术正减速开展,浸透到云、边、端和运用的各个层面,与海量IoT装备进行深度融会,不停拓展运用场景。但是在AIoT场景中,嵌入式装备往往算力无限,难以承载宏大的AI模型。如安在资源无限的终端场景完成 AI 模型的无效部署,是减速AI落地的首要问题。AI 工程师们研发了各种试图放大模型大小并放弃机能的方法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型紧缩技术,能够无效增加模型算力损耗并晋升计算速度,以后曾经在工业界开展对比成熟。
    目前相对于成熟的模型量化计划是 INT8 量化。以ResNet-50 模型为例,本来需求用 float 32 表现的权重,量化后只需求使用 INT8 表现,经过这样的处置,模型体积能够增加到原来的1/2,再加之 TensorCore 的加持,还会有近 8 倍的网络减速。而假如更进一步,将模型用INT4 表现,能够带来更多的速度晋升。
    为了推进低比特量化技术的开展,旷视天元MegEngine 团队开源了 INT4 的源码完成,这也让MegEngine成为首个开源CUDA INT4源码完成的深度学习框架。MegEngine采取平均线性量化计划,完成了非对称量化和对称量化两种INT4的数据类型,同时经过算子融会优化、kernel优化等办法,使得量化后的模型能够仍然放弃较高的精度以及良好的运转速度。一样以ResNet-50为例,INT4 比拟 INT8 有 1.3倍的减速。

    详细代码完成能够拜候GitHub链接(
    http://github.com/MegEngine/examples )理解详情。
    跟着 CUDA INT4 的开源,目前MegEngine 框架不只反对浮点数 FP32 和 FP16,并且反对 INT8 和 INT4 的对称和非对称量化推理。另外,MegEngine框架开发了诸多工具,帮忙用户晋升模型推感性能、简化部署流程,包罗自动代码裁剪功用,反对用户全自动的针对算子进行代码裁剪;TracedModule 计划以及 MegEngine Lite,基于旷视海量业务打磨出的模型推理最好理论,化解模型转换部署困难;流程办理工具FastRun, 能够为每个计算自动选择最快的算法,从而包管全部网络的运转时间最短,让 MegEngine 用户运转不同的网络时都能播种最佳机能。
    自开源以来,MegEngine不停优化,已前后公布29个版本,推出一系列实用功用,升高AI算法出产门坎,助力AI运用疾速落地。将来,旷视将持续反对和拥抱开源,并将本身在开源畛域积攒的技术和教训与业界同享,推进人工智能技术翻新和行业开展。
    本文源自金融界资讯

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题35

    帖子42

    积分187

    图文推荐