Meta公布了大言语模型LLaMA：4个根底模型，参数规模从7B到65B

股市杀手

Meta公布了LLaMA，4个根底模型，参数规模从7B到65B
LLaMA-13B在大少数基准测试中的机能优于OPT和GPT-3 175B。LLaMA-65B可与Chinchilla 70 B和PaLM 540B竞争。

与Chinchilla、PaLM或GPT-3不同，LLaMA只使用地下可用的数据集，而大少数现有模型依赖于非地下可用的数据。
一切的模型都在最少1T的令牌上进行了训练，远远超过了该范围下通常使用的令牌数量。乏味的是，即便在1T令牌之后，7B模型机能仍在改进。

在知识推理、闭卷问题回答和浏览了解方面，LLaMA-65B在简直一切基准测试中都优于Chinchilla 70B和PaLM 540B。

LLaMA-65B在GSM8k上的机能优于Minerva-62B，只管它尚未在任何数学数据集上进行微调。在MATH基准测试中，它优于PaLM-62B（但远低于Minerva-62B）。
在代码生成基准测试中，LLaMA-62 B优于cont-PaLM（62 B）以及PaLM-540 B。

已开源：/facebookresearch/llama
作为一个最小的、可自在修正的和可读的示例来加载LLaMA模型和运转推理。

华人澳洲中文论坛