人类没有足够的高品质语料给AI学了，2026年就用尽，网友：大型人类文本生成名目启动！

果鲜鲜

原标题：人类没有足够的高品质语料给AI学了，2026年就用尽，网友：大型人类文本生成名目启动！
萧箫发自凹非寺
量子位 | 大众号 QbitAI
AI胃口太大，人类的语料数据曾经不敷吃了。
来自Epoch团队的一篇新论文标明，AI不出5年就会把一切高品质语料用光。

wgbfmq2jkjr.jpg

要知道，这可是把人类言语数据增长率斟酌在内预测出的后果，换而言之，这几年人类新写的论文、新编的代码，哪怕 全都喂给AI也不敷。
照这么开展上来，依赖高品质数据晋升程度的言语大模型，很快就要迎来瓶颈。
曾经有网友坐不住了：
这太荒诞了。人类无需浏览互联网一切内容，就可以高效训练本人。
  咱们需求更好的模型，而不是更多的数据。
这太荒诞了。人类无需浏览互联网一切内容，就可以高效训练本人。
咱们需求更好的模型，而不是更多的数据。
还有网友调侃，都这样了不如让AI吃本人吐的货色：
能够把AI本人生成的文本当成低品质数据喂给AI。
能够把AI本人生成的文本当成低品质数据喂给AI。
让咱们来看看，人类残余的数据还有多少？
文本和图象数据“存货”如何？
论文次要针对文本和图象两类数据进行了预测。
展开全文首先是 文本数据。
数据的品质通常有好有坏，作者们按照现有大模型采取的数据类型、以及其余数据，将可用文本数据分红了 低品质和 高品质两部份。
高品质语料，参考了Pile、PaLM和MassiveText等大型言语模型所用的训练数据集，包罗维基百科、旧事、GitHub上的代码、出版书籍等。

0rim4swytct.jpg

低品质语料，则来源于Reddit等社交媒体上的推文、以及非民间创作的同人小说（fanfic）等。
按照统计，高品质言语数据存量只剩下约4.6×10^十二~1.7×10^13个单词，比拟以后最大的文本数据集大了不到一个数量级。
结合增长率，论文预测 高品质文本数据会在 2023~2027年间被AI耗尽，预估节点在2026年摆布。
看起来真实有点快……

v4aehd4yqdb.jpg

固然，能够再加之低品质文本数据来救急。按照统计，目前文本数据总体存量还剩下7×10^13~7×10^16个单词，比最大的数据集大1.5~4.5个数量级。
假如对数据品质要求不高，那末AI会在 2030年~2050年之间才用完一切文本数据。

jcgcvkm2fdo.jpg

再看看 图象数据，这里论文没有区别图象品质。
目前最大的图象数据集具有3×10^9张图片。
据统计，目前图片总量约有8.十一×10^十二~2.3×10^13张，比最大的图象数据集大出3~4个数量级。
论文预测AI会在 2030~2070年间用完这些图片。

ujalqnz3zeo.jpg

显然，大言语模型比图象模型面临着更紧张的“缺数据”状况。
那末这一论断是如何得出的呢？
计算网民日均发文量得出
论文从两个角度，分别对文本图象数据生功效率、以及训练数据集增长状况进行了剖析。
值得留意的是，论文统计的不都是标注数据，斟酌到无监视学习对比炽热，把未标注数据也算进去了。
以文本数据为例，大部份数据会从社交平台、博客和论坛生成。
为了估量文本数据生成速度，有三个要素需求斟酌，即总人口、互联网遍及率和互联网用户均匀生成数据量。
例如，这是按照历史 人口数据和 互联网用户数量，估量失掉的将来人口和互联网用户增长趋向：

r3rcoww1ugn.jpg

再结合 用户生成的均匀数据量，就可以计算出世成数据的速率。（因为地舆和时间变动繁杂，论文简化了用户均匀生成数据量计算办法）
按照这一办法，计算得出言语数据增长率在7%摆布，但是这一增长率会跟着时间延伸逐步降落。
预计到2100年，咱们的言语数据增长率会升高到 1%。
一样相似的办法剖析图象数据，以后增长率在8%摆布，但是到2100年图象数据增长率一样会放缓至1%摆布。
论文以为，假如数据增长率没有大幅进步、或是泛起新的数据来源，无论是靠高品质数据训练的图象仍是文本大模型，均可能在某个阶段迎来瓶颈期。
对此有网友调侃，将来也许会有像科幻故事件节同样的事件产生：
人类为了训练AI，启动大型文本生成名目，大家为了AI拼命写货色。
人类为了训练AI，启动大型文本生成名目，大家为了AI拼命写货色。
他称之为一种“对AI的教育”：
咱们每一年给AI送14万到260万单词量的文本数据，听起来似乎比《黑客帝国》中人类当电池要更酷？
咱们每一年给AI送14万到260万单词量的文本数据，听起来似乎比《黑客帝国》中人类当电池要更酷？
你感觉呢？
论文地址：
http://arxiv.org/abs/22十一.04325
— 完—
「2022人工智能年度评比」榜单揭晓
领航企业TOP50
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

人类没有足够的高品质语料给AI学了，2026年就用尽，网友：大型人类文本生成名目启动！

发表回复

浏览过的版块

果鲜鲜
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

人类没有足够的高品质语料给AI学了，2026年就用尽，网友：大型人类文本生成名目启动！

发表回复

浏览过的版块

果鲜鲜 关注TA

图文推荐

果鲜鲜
关注TA