华人澳洲中文论坛

热图推荐

    Meta公布了大言语模型LLaMA:4个根底模型,参数规模从7B到65B

    [复制链接]

    2023-2-27 07:12:56 15 0

    Meta公布了LLaMA,4个根底模型,参数规模从7B到65B
    LLaMA-13B在大少数基准测试中的机能优于OPT和GPT-3 175B。LLaMA-65B可与Chinchilla 70 B和PaLM 540B竞争。


    与Chinchilla、PaLM或GPT-3不同,LLaMA只使用地下可用的数据集,而大少数现有模型依赖于非地下可用的数据。
    一切的模型都在最少1T的令牌上进行了训练,远远超过了该范围下通常使用的令牌数量。 乏味的是,即便在1T令牌之后,7B模型机能仍在改进。


    在知识推理、闭卷问题回答和浏览了解方面,LLaMA-65B在简直一切基准测试中都优于Chinchilla 70B和PaLM 540B。




    LLaMA-65B在GSM8k上的机能优于Minerva-62B,只管它尚未在任何数学数据集上进行微调。在MATH基准测试中,它优于PaLM-62B(但远低于Minerva-62B)。
    在代码生成基准测试中,LLaMA-62 B优于cont-PaLM(62 B)以及PaLM-540 B。


    已开源:/facebookresearch/llama
    作为一个最小的、可自在修正的和可读的示例来加载LLaMA模型和运转推理。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题21

    帖子26

    积分123

    图文推荐