华人澳洲中文论坛

热图推荐

    人类没有足够的高品质语料给AI学了,2026年就用尽,网友:大型人类文本生成名目启动!

    [复制链接]

    2023-1-2 07:29:33 18 0

    原标题:人类没有足够的高品质语料给AI学了,2026年就用尽,网友:大型人类文本生成名目启动!  
    萧箫 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    AI胃口太大,人类的语料数据曾经不敷吃了。  
    来自Epoch团队的一篇新论文标明,AI不出5年就会把一切高品质语料 用光。   

    wgbfmq2jkjr.jpg

    wgbfmq2jkjr.jpg


    要知道,这可是把人类言语数据增长率斟酌在内预测出的后果,换而言之,这几年人类新写的论文、新编的代码,哪怕 全都喂给AI也不敷。   
    照这么开展上来,依赖高品质数据晋升程度的言语大模型,很快就要迎来 瓶颈。   
    曾经有网友坐不住了:  
    这太荒诞了。人类无需浏览互联网一切内容,就可以高效训练本人。
      咱们需求更好的模型,而不是更多的数据。
        这太荒诞了。人类无需浏览互联网一切内容,就可以高效训练本人。  
    咱们需求更好的模型,而不是更多的数据。  
    还有网友调侃,都这样了不如让AI吃本人吐的货色:  
    能够把AI本人生成的文本当成低品质数据喂给AI。
        能够把AI本人生成的文本当成低品质数据喂给AI。  
    让咱们来看看,人类残余的数据还有多少?  
    文本和图象数据“存货”如何?   
    论文次要针对 文本图象两类数据进行了预测。   
    展开全文    首先是 文本数据。   
    数据的品质通常有好有坏,作者们按照现有大模型采取的数据类型、以及其余数据,将可用文本数据分红了 低品质高品质两部份。   
    高品质语料,参考了Pile、PaLM和MassiveText等大型言语模型所用的训练数据集,包罗维基百科、旧事、GitHub上的代码、出版书籍等。  

    0rim4swytct.jpg

    0rim4swytct.jpg


    低品质语料,则来源于Reddit等社交媒体上的推文、以及非民间创作的同人小说 (fanfic)等。   
    按照统计,高品质言语数据存量只剩下约4.6×10^十二~1.7×10^13个单词,比拟以后最大的文本数据集大了不到一个数量级。  
    结合增长率,论文预测 高品质文本数据会在 2023~2027年间被AI耗尽,预估节点在2026年摆布。   
    看起来真实有点快……  

    v4aehd4yqdb.jpg

    v4aehd4yqdb.jpg


    固然,能够再加之低品质文本数据来救急。按照统计,目前文本数据总体存量还剩下7×10^13~7×10^16个单词,比最大的数据集大1.5~4.5个数量级。  
    假如对数据品质要求不高,那末AI会在 2030年~2050年之间才用完一切文本数据。   

    jcgcvkm2fdo.jpg

    jcgcvkm2fdo.jpg


    再看看 图象数据,这里论文没有区别图象品质。   
    目前最大的图象数据集具有3×10^9张图片。  
    据统计,目前图片总量约有8.十一×10^十二~2.3×10^13张,比最大的图象数据集大出3~4个数量级。  
    论文预测AI会在 2030~2070年间用完这些图片。   

    ujalqnz3zeo.jpg

    ujalqnz3zeo.jpg


    显然,大言语模型比图象模型面临着更紧张的“缺数据”状况。  
    那末这一论断是如何得出的呢?  
    计算网民日均发文量得出   
    论文从两个角度,分别对文本图象数据生功效率、以及训练数据集增长状况进行了剖析。  
    值得留意的是,论文统计的不都是标注数据,斟酌到无监视学习对比炽热,把未标注数据也算进去了。  
    以文本数据为例,大部份数据会从社交平台、博客和论坛生成。  
    为了估量文本数据生成速度,有三个要素需求斟酌,即总人口、互联网遍及率和互联网用户均匀生成数据量。  
    例如,这是按照历史 人口数据互联网用户数量,估量失掉的将来人口和互联网用户增长趋向:   

    r3rcoww1ugn.jpg

    r3rcoww1ugn.jpg


    再结合 用户生成的均匀数据量,就可以计算出世成数据的速率。 (因为地舆和时间变动繁杂,论文简化了用户均匀生成数据量计算办法)  
    按照这一办法,计算得出言语数据增长率在7%摆布,但是这一增长率会跟着时间延伸逐步降落。  
    预计到2100年,咱们的言语数据增长率会升高到 1%。   
    一样相似的办法剖析图象数据,以后增长率在8%摆布,但是到2100年图象数据增长率一样会放缓至1%摆布。  
    论文以为,假如数据增长率没有大幅进步、或是泛起新的数据来源,无论是靠高品质数据训练的图象仍是文本大模型,均可能在某个阶段迎来瓶颈期。  
    对此有网友调侃,将来也许会有像科幻故事件节同样的事件产生:  
    人类为了训练AI,启动大型文本生成名目,大家为了AI拼命写货色。
        人类为了训练AI,启动大型文本生成名目,大家为了AI拼命写货色。  
    他称之为一种“对AI的教育”:  
    咱们每一年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?
        咱们每一年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?  
    你感觉呢?  
    论文地址:  
    http://arxiv.org/abs/22十一.04325  
    —   
    「2022人工智能年度评比」榜单揭晓  
    领航企业TOP50  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题41

    帖子51

    积分237

    图文推荐