|
原标题:人类没有足够的高品质语料给AI学了,2026年就用尽,网友:大型人类文本生成名目启动!
萧箫 发自 凹非寺
量子位 | 大众号 QbitAI
AI胃口太大,人类的语料数据曾经不敷吃了。
来自Epoch团队的一篇新论文标明,AI不出5年就会把一切高品质语料 用光。
wgbfmq2jkjr.jpg
要知道,这可是把人类言语数据增长率斟酌在内预测出的后果,换而言之,这几年人类新写的论文、新编的代码,哪怕 全都喂给AI也不敷。
照这么开展上来,依赖高品质数据晋升程度的言语大模型,很快就要迎来 瓶颈。
曾经有网友坐不住了:
这太荒诞了。人类无需浏览互联网一切内容,就可以高效训练本人。
咱们需求更好的模型,而不是更多的数据。
这太荒诞了。人类无需浏览互联网一切内容,就可以高效训练本人。
咱们需求更好的模型,而不是更多的数据。
还有网友调侃,都这样了不如让AI吃本人吐的货色:
能够把AI本人生成的文本当成低品质数据喂给AI。
能够把AI本人生成的文本当成低品质数据喂给AI。
让咱们来看看,人类残余的数据还有多少?
文本和图象数据“存货”如何?
论文次要针对 文本和 图象两类数据进行了预测。
展开全文 首先是 文本数据。
数据的品质通常有好有坏,作者们按照现有大模型采取的数据类型、以及其余数据,将可用文本数据分红了 低品质和 高品质两部份。
高品质语料,参考了Pile、PaLM和MassiveText等大型言语模型所用的训练数据集,包罗维基百科、旧事、GitHub上的代码、出版书籍等。
0rim4swytct.jpg
低品质语料,则来源于Reddit等社交媒体上的推文、以及非民间创作的同人小说 (fanfic)等。
按照统计,高品质言语数据存量只剩下约4.6×10^十二~1.7×10^13个单词,比拟以后最大的文本数据集大了不到一个数量级。
结合增长率,论文预测 高品质文本数据会在 2023~2027年间被AI耗尽,预估节点在2026年摆布。
看起来真实有点快……
v4aehd4yqdb.jpg
固然,能够再加之低品质文本数据来救急。按照统计,目前文本数据总体存量还剩下7×10^13~7×10^16个单词,比最大的数据集大1.5~4.5个数量级。
假如对数据品质要求不高,那末AI会在 2030年~2050年之间才用完一切文本数据。
jcgcvkm2fdo.jpg
再看看 图象数据,这里论文没有区别图象品质。
目前最大的图象数据集具有3×10^9张图片。
据统计,目前图片总量约有8.十一×10^十二~2.3×10^13张,比最大的图象数据集大出3~4个数量级。
论文预测AI会在 2030~2070年间用完这些图片。
ujalqnz3zeo.jpg
显然,大言语模型比图象模型面临着更紧张的“缺数据”状况。
那末这一论断是如何得出的呢?
计算网民日均发文量得出
论文从两个角度,分别对文本图象数据生功效率、以及训练数据集增长状况进行了剖析。
值得留意的是,论文统计的不都是标注数据,斟酌到无监视学习对比炽热,把未标注数据也算进去了。
以文本数据为例,大部份数据会从社交平台、博客和论坛生成。
为了估量文本数据生成速度,有三个要素需求斟酌,即总人口、互联网遍及率和互联网用户均匀生成数据量。
例如,这是按照历史 人口数据和 互联网用户数量,估量失掉的将来人口和互联网用户增长趋向:
r3rcoww1ugn.jpg
再结合 用户生成的均匀数据量,就可以计算出世成数据的速率。 (因为地舆和时间变动繁杂,论文简化了用户均匀生成数据量计算办法)
按照这一办法,计算得出言语数据增长率在7%摆布,但是这一增长率会跟着时间延伸逐步降落。
预计到2100年,咱们的言语数据增长率会升高到 1%。
一样相似的办法剖析图象数据,以后增长率在8%摆布,但是到2100年图象数据增长率一样会放缓至1%摆布。
论文以为,假如数据增长率没有大幅进步、或是泛起新的数据来源,无论是靠高品质数据训练的图象仍是文本大模型,均可能在某个阶段迎来瓶颈期。
对此有网友调侃,将来也许会有像科幻故事件节同样的事件产生:
人类为了训练AI,启动大型文本生成名目,大家为了AI拼命写货色。
人类为了训练AI,启动大型文本生成名目,大家为了AI拼命写货色。
他称之为一种“对AI的教育”:
咱们每一年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?
咱们每一年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?
你感觉呢?
论文地址:
http://arxiv.org/abs/22十一.04325
— 完—
「2022人工智能年度评比」榜单揭晓
领航企业TOP50
点这里 ?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~ |
|