单卡就可以跑的大模型等效GPT-3！Meta公布大言语模型LLaMA，大小从7B到65B不等

waterrice

原标题：单卡就可以跑的大模型等效GPT-3！Meta公布大言语模型LLaMA，大小从7B到65B不等
Pine 发自凹非寺
量子位 | 大众号 QbitAI
ChatGPT的热度稍有停息，冬眠已久的Meta就迅速放出“大招”：
一次性公布四种尺寸的大言语模型 LLaMA：7B、13B、33B和65B，用小杯、中杯、大杯和超大杯来解释很形象了有木有（Doge）。
一次性公布四种尺寸的大言语模型 LLaMA：7B、13B、33B和65B，用小杯、中杯、大杯和超大杯来解释很形象了有木有（Doge）。
还宣称， 成果好于GPT，倾向性更低，更首要的是一切尺寸均开源，乃至13B的LLaMA在 单个GPU上就可以运转。
动静一出，间接在网上掀起一阵热度，不到一地利间，相干推文的阅读量就曾经快破百万。

同在Meta的LeCun固然也得为这次大模型的热度“添油加柴”，LLaMA间接给他写了段“AI”Rap：
We gotta think about the future, it’s gonna be here soon
  Maybe we can even put some AI in the moon
  Think about the children, think about the next generation
  Let’s make sure we put the right systems in their foundation
We gotta think about the future, it’s gonna be here soon
   Maybe we can even put some AI in the moon
Think about the children, think about the next generation
Let’s make sure we put the right systems in their foundation
（不能不说成果不错，还双押了，skr～）

不外话说回来，这次Meta的LLaMA模型究竟如何？
一同来一探索竟。
数学编程写求职信通通都能拿下
Meta公布的LLaMA是 通用大言语模型，原理就未几赘述，和以往的大言语模型同样：
将一系列单词作为输出，并预测下一个单词以递归生成文本。
将一系列单词作为输出，并预测下一个单词以递归生成文本。
这次，Meta之所以一次给出不同大小的LLaMA模型，论文中给出了这样的解释：
近来的钻研标明，关于给定的计算估算，最好机能不是由最大的模型完成的，而是由 基于更少数据训练的 更小的模型完成的。
近来的钻研标明，关于给定的计算估算，最好机能不是由最大的模型完成的，而是由 基于更少数据训练的 更小的模型完成的。
也就是说，较小的模型范围加之对比大的数据集，获取的机能可能会比更大范围模型的要好得多。
一方面，小范围模型需求的计算才能和资源相对于来讲都会少得多，另外一方面，它还能基于更少数据集 训练更多token，更易针对特定的潜伏产品用例进行从新训练和微调。
除了一把给出四种尺寸的LLaMA，Meta这次还间接开源了这个大言语模型。
更首要的是，Meta为了让本人的任务与开源兼容，使用的都是地下的数据。

而这把开源，也不仅利好开发人员，一样也利好Meta。
LLaMA模型也有着其余大言语模型的通病：会发生成见性、有毒或者虚伪的内容。开源吸引来的更多的钻研能够帮忙解决这个问题。
不外讲了这么多，Meta的这个LLaMA模型究竟能做啥？
扎克伯格间接在Facebook放出豪言，这是AI大言语模型里的新SOTA：
生成文本、进行对话、总结书面资料以及解决数学定理或预测蛋白质构造等它都无能。
生成文本、进行对话、总结书面资料以及解决数学定理或预测蛋白质构造等它都无能。

论文的最初也给出了一些栗子

：
好比说，给出几个数字，它间接就可以找出其中的法则并续写，还balabala解释了一大通。

ChatGPT以前长于写的求职信LLaMA也能轻松拿下。

编程、写小说也是分分钟的事儿：

成果超出GPT-3
固然根据常规，在最初LLaMA仍是得和其余大模型做做对比（是骡子是马，咱得拉出来遛遛）。
其中，大家对比相熟的就是GPT-3，间接看看它们俩之间的成果对比：
相较于有1750亿参数的GPT-3，至多只要650亿参数LLaMA赢麻了：它在大少数基准上都要优于GPT-3。
好比说知识推理：

或者说一些根底问题的解决：

又好比说浏览了解：

乃至，钻研人员还提供了一组评价模型成见性和毒性的基准，得分越高，成见就越大：
LLaMA以66.6分险胜，成见性略低于GPT-3。
LLaMA以66.6分险胜，成见性略低于GPT-3。

你对Meta这次的LLaMA怎么看呢？假如还想理解更多能够戳文末链接～
— 完—
《中国AIGC产业全景讲演暨AIGC 50》调研启动
谁会是中国的“ChatGPT”？最有竞争力和后劲的AIGC气力位于何方？
量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集，期待有更多优秀的机构、产品、案例与技术可以被公众看到。
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

单卡就可以跑的大模型等效GPT-3！Meta公布大言语模型LLaMA，大小从7B到65B不等

发表回复

浏览过的版块

waterrice
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

单卡就可以跑的大模型等效GPT-3！Meta公布大言语模型LLaMA，大小从7B到65B不等

发表回复

浏览过的版块

waterrice 关注TA

图文推荐

waterrice
关注TA