华人澳洲中文论坛

热图推荐

    200+言语恣意互译,新开源的大模型让粤语靓仔间接喜大普奔

    [复制链接]

    2022-7-8 21:25:06 20 0

    原标题:200+言语恣意互译,新开源的大模型让粤语靓仔间接喜大普奔  
    Alex 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    这个翻译模型,不只反对200+言语之间恣意两两互译,仍是开源的。  
    Meta AI在公布开源大型预训练模型OPT之后,再次公布最新效果 NLLB。   
    NLLB的全称为No Language Left Behind,假如套用某著名电影,能够翻译成“一个言语都不克不及少”。  


    这其中,中文分为简体繁体和粤语三种,而除了中英法日语等罕用语种外,还包罗了许多 小众言语  


    NLLB反对的部份语种截图   
    因为这些言语之间均可以两两互译,所以我们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众言语间接译成中文了。  


    一名用粤语的靓仔看到这里间接喜大普奔。  


    要知道,此前的泛滥言语模型,要末不反对这么多种言语,要末不克不及间接实现小众言语之间的两两翻译。  
    有了NLLB,世界各地的人都无机会以本人的母语拜候和分享网络内容;而且无论他们的言语偏好如何,均可以与别人在恣意中央沟通。  
    Meta称,他们方案先将这个技术运用于Facebook和Instagram,以晋升这些平台上小众言语的计算机翻译程度。  
    同时,这也是他们元宇宙方案的一部份。  
    而这项效果正式开源的动静,也遭到广受好评。  
    除了AI业内关怀他们如何反对语料稀缺的冷门言语,以及如安在BLEU基准测试上进步7个点之外。  
    也有来自西非的网友以为,言语障碍恰是寰球互联网用户数量进一步增长的症结。  
    在Hacker News论坛上,大家也对这个AI谈论纷纭。  
    一个前端开发者说,本人的母语就是十分小众的那种,仅有约一百万人使用。  
    这位开发者此前从未见过对这类言语好用的AI翻译软件,而NLLB给他带来了但愿。  
    不外他以为,连著名的谷歌AI在处置“德-英-德”这样语料丰硕的言语翻译时,都经常会出问题,所以他暂且对这个宣称能翻译好小众言语的新模型持保存态度。  
    有网友给这位开发者支招儿,告知他Meta凋谢了有反对翻译的儿童书籍,能够去看看翻译成果。  


    还有人增补道,许多小众言语有许多不同的天然变体,更偏于书面语化,而没有特定书面化规范,能够用多种文字书写。  
    所以,如何对小众言语进行规范化是个辣手的问题。  
    怎么反对语料少的言语   
    这个掌握了200多种言语的AI模型是怎么训练的?  
    据Meta AI引见,他们的AI钻研人员次要经过 3个方面来解决一些言语语料少的问题。   
    其一是为语料少的言语自动构建高品质的数据集。   
    钻研者建设了一个多对多的多言语数据集 Flores-200。   
    专业的真人翻舌人和审稿人采取一致的规范,来保质保量地建设这个数据集。  
    首先,舌人们翻译Flores-200的整个句子,并反省;而后,独立审查员小组开始审查翻译品质,按照他们的评价将一些译文送去进行前期编纂。  


    假如品质评价标明,品质在90%以上,则以为该言语能够被归入Flores-200中。  


    终究,Flores-200中包孕了842篇不同文章的翻译,共3001个句子。  
    其二,是对200种言语建模:   
    所以,在这个LID开发的不同阶段,工程师们都和言语学家们放弃着严密协作来尽可能规避这些问题。  
    为了对小众言语进行较好的建模,钻研者开发了一种“先生-老师挖掘法” (Student-Teacher Mining)   
    该办法的内容是:让一个大范围的多言语句子编码器的老师模型,与几个语料少的先生模型互相学习整合。  


    这样可以在不和多语料言语争取容量的状况下,丰硕小众言语的训练数据,放弃了多言语嵌入空间的兼容性,防止从头开始从新训练全部模型。  
    其三,是将一集体工翻译的评价基准:FLORES的掩盖规模扩张2倍,来评价每一个种言语的翻译品质。   
    虽然自动评分是推进该钻研的首要工具,但人工评估关于翻译品质的评价也是必不成少的。  
    经过整合AI自动评分和人工评价,可以普遍量化翻译程度,便于晋升整顿的翻译品质。  
    为了让更多顺序员和工程师们可以使用或完美NLLB,Meta凋谢了一切的评价基准 (FLORES-200、NLLB-MD、Toxicity-200) 、LID模型和训练代码,以及终究的NLLB-200模型和其小型提炼版本等。   
    Meta AI已将这些内容开源,就在fariseq仓库外面,感兴致的小火伴们能够去看看。  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加咱们,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    ps.加好友请务必备注您的姓名-公司-职位哦~   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题27

    帖子39

    积分170

    图文推荐