华人澳洲中文论坛

人类没有足够的高品质语料给AI学了,2026年就用尽,网友:大型人类文本生成名目启动!

[复制链接]

2023-1-2 07:29:33 45 0

原标题:人类没有足够的高品质语料给AI学了,2026年就用尽,网友:大型人类文本生成名目启动!  
萧箫 发自 凹非寺   
量子位 | 大众号 QbitAI   
AI胃口太大,人类的语料数据曾经不敷吃了。  
来自Epoch团队的一篇新论文标明,AI不出5年就会把一切高品质语料 用光。   

wgbfmq2jkjr.jpg

wgbfmq2jkjr.jpg


要知道,这可是把人类言语数据增长率斟酌在内预测出的后果,换而言之,这几年人类新写的论文、新编的代码,哪怕 全都喂给AI也不敷。   
照这么开展上来,依赖高品质数据晋升程度的言语大模型,很快就要迎来 瓶颈。   
曾经有网友坐不住了:  
这太荒诞了。人类无需浏览互联网一切内容,就可以高效训练本人。
  咱们需求更好的模型,而不是更多的数据。
    这太荒诞了。人类无需浏览互联网一切内容,就可以高效训练本人。  
咱们需求更好的模型,而不是更多的数据。  
还有网友调侃,都这样了不如让AI吃本人吐的货色:  
能够把AI本人生成的文本当成低品质数据喂给AI。
    能够把AI本人生成的文本当成低品质数据喂给AI。  
让咱们来看看,人类残余的数据还有多少?  
文本和图象数据“存货”如何?   
论文次要针对 文本图象两类数据进行了预测。   
展开全文    首先是 文本数据。   
数据的品质通常有好有坏,作者们按照现有大模型采取的数据类型、以及其余数据,将可用文本数据分红了 低品质高品质两部份。   
高品质语料,参考了Pile、PaLM和MassiveText等大型言语模型所用的训练数据集,包罗维基百科、旧事、GitHub上的代码、出版书籍等。  

0rim4swytct.jpg

0rim4swytct.jpg


低品质语料,则来源于Reddit等社交媒体上的推文、以及非民间创作的同人小说 (fanfic)等。   
按照统计,高品质言语数据存量只剩下约4.6×10^十二~1.7×10^13个单词,比拟以后最大的文本数据集大了不到一个数量级。  
结合增长率,论文预测 高品质文本数据会在 2023~2027年间被AI耗尽,预估节点在2026年摆布。   
看起来真实有点快……  

v4aehd4yqdb.jpg

v4aehd4yqdb.jpg


固然,能够再加之低品质文本数据来救急。按照统计,目前文本数据总体存量还剩下7×10^13~7×10^16个单词,比最大的数据集大1.5~4.5个数量级。  
假如对数据品质要求不高,那末AI会在 2030年~2050年之间才用完一切文本数据。   

jcgcvkm2fdo.jpg

jcgcvkm2fdo.jpg


再看看 图象数据,这里论文没有区别图象品质。   
目前最大的图象数据集具有3×10^9张图片。  
据统计,目前图片总量约有8.十一×10^十二~2.3×10^13张,比最大的图象数据集大出3~4个数量级。  
论文预测AI会在 2030~2070年间用完这些图片。   

ujalqnz3zeo.jpg

ujalqnz3zeo.jpg


显然,大言语模型比图象模型面临着更紧张的“缺数据”状况。  
那末这一论断是如何得出的呢?  
计算网民日均发文量得出   
论文从两个角度,分别对文本图象数据生功效率、以及训练数据集增长状况进行了剖析。  
值得留意的是,论文统计的不都是标注数据,斟酌到无监视学习对比炽热,把未标注数据也算进去了。  
以文本数据为例,大部份数据会从社交平台、博客和论坛生成。  
为了估量文本数据生成速度,有三个要素需求斟酌,即总人口、互联网遍及率和互联网用户均匀生成数据量。  
例如,这是按照历史 人口数据互联网用户数量,估量失掉的将来人口和互联网用户增长趋向:   

r3rcoww1ugn.jpg

r3rcoww1ugn.jpg


再结合 用户生成的均匀数据量,就可以计算出世成数据的速率。 (因为地舆和时间变动繁杂,论文简化了用户均匀生成数据量计算办法)  
按照这一办法,计算得出言语数据增长率在7%摆布,但是这一增长率会跟着时间延伸逐步降落。  
预计到2100年,咱们的言语数据增长率会升高到 1%。   
一样相似的办法剖析图象数据,以后增长率在8%摆布,但是到2100年图象数据增长率一样会放缓至1%摆布。  
论文以为,假如数据增长率没有大幅进步、或是泛起新的数据来源,无论是靠高品质数据训练的图象仍是文本大模型,均可能在某个阶段迎来瓶颈期。  
对此有网友调侃,将来也许会有像科幻故事件节同样的事件产生:  
人类为了训练AI,启动大型文本生成名目,大家为了AI拼命写货色。
    人类为了训练AI,启动大型文本生成名目,大家为了AI拼命写货色。  
他称之为一种“对AI的教育”:  
咱们每一年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?
    咱们每一年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?  
你感觉呢?  
论文地址:  
http://arxiv.org/abs/22十一.04325  
—   
「2022人工智能年度评比」榜单揭晓  
领航企业TOP50  
点这里 ?关注我,记得标星哦~   
一键三连「分享」、「点赞」和「在看」  
科技前沿停顿日日相见 ~

发表回复

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则

:
中级会员
:
论坛短信
:
未填写
:
未填写
:
未填写

主题39

帖子51

积分245

图文推荐

  • 撞穿学校栅栏害死十一岁男孩的司机不必坐牢

    一位女司机撞穿学校栅栏、害死了11岁男孩,被罚20

  • 全科医生正告花粉症时节正在好转

    全国各地的全科医生正告春季的开端标记着花粉症时

  • 新西兰总理:出世在新西兰的新纳粹Thomas S

    新西兰总理拉克森称新纳粹Thomas Sewell是坏人,

  • 新州护士和助产士承受暂时加薪3%的前提

    新州护士和助产士投票承受政府提出的暂时加薪3%以

  • 新纳粹份子如何利用“普通父母”的掩护在反

    星期天,新纳粹份子在反移民集会开端前大约一个小