华人澳洲中文论坛

Meta公布了大言语模型LLaMA:4个根底模型,参数规模从7B到65B

[复制链接]

2023-2-27 07:12:56 57 0

Meta公布了LLaMA,4个根底模型,参数规模从7B到65B
LLaMA-13B在大少数基准测试中的机能优于OPT和GPT-3 175B。LLaMA-65B可与Chinchilla 70 B和PaLM 540B竞争。


与Chinchilla、PaLM或GPT-3不同,LLaMA只使用地下可用的数据集,而大少数现有模型依赖于非地下可用的数据。
一切的模型都在最少1T的令牌上进行了训练,远远超过了该范围下通常使用的令牌数量。 乏味的是,即便在1T令牌之后,7B模型机能仍在改进。


在知识推理、闭卷问题回答和浏览了解方面,LLaMA-65B在简直一切基准测试中都优于Chinchilla 70B和PaLM 540B。




LLaMA-65B在GSM8k上的机能优于Minerva-62B,只管它尚未在任何数学数据集上进行微调。在MATH基准测试中,它优于PaLM-62B(但远低于Minerva-62B)。
在代码生成基准测试中,LLaMA-62 B优于cont-PaLM(62 B)以及PaLM-540 B。


已开源:/facebookresearch/llama
作为一个最小的、可自在修正的和可读的示例来加载LLaMA模型和运转推理。

发表回复

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则

:
注册会员
:
论坛短信
:
未填写
:
未填写
:
未填写

主题20

帖子26

积分127

图文推荐

  • 撞穿学校栅栏害死十一岁男孩的司机不必坐牢

    一位女司机撞穿学校栅栏、害死了11岁男孩,被罚20

  • 全科医生正告花粉症时节正在好转

    全国各地的全科医生正告春季的开端标记着花粉症时

  • 新西兰总理:出世在新西兰的新纳粹Thomas S

    新西兰总理拉克森称新纳粹Thomas Sewell是坏人,

  • 新州护士和助产士承受暂时加薪3%的前提

    新州护士和助产士投票承受政府提出的暂时加薪3%以

  • 新纳粹份子如何利用“普通父母”的掩护在反

    星期天,新纳粹份子在反移民集会开端前大约一个小