而具备如斯才能的症结,就写在论文的标题里:Language is not all you need。
多模态大言语模型
简略来讲,Kosmos-1是一种把视觉和大言语模型结合起来的多模态大言语模型。
在感知图片、文字等不同模态输出的同时,Kosmos-1还可以按照人类给出的指令,以自回归的形式,学习上下文并生成回答。
钻研人员表现,在多模态语料库上从头训练,不通过微调,这个AI就可以在言语了解、生成、图象了解、OCR、多模态对话等多种工作上有杰出表示。
好比甩出一张猫猫图,问它这照片好玩在哪里,Kosmos-1就可以给你剖析:猫猫戴上了一个浅笑面具,看下来就像在笑。
Kosmos-1的主干网络,是一个基于Transformer的因果言语模型。Transformer解码器作为通用接口,用于多模态输出。
用于训练的数据来自多模态语料库,包罗单模态数据(如文本)、跨模态配对数据(图象-文本对)和交织的多模态数据。
值得一提的是,虽然说“Language is not all you need”,但为了让Kosmos-1更能读懂人类的唆使,在训练时,钻研人员仍是专门对其进行了仅使用言语数据的指令调剂。
详细而言,就是用(指令,输出,输入)格局的指令数据持续训练模型。
试验后果
钻研人员在5大类共10个工作中,测试了Kosmos-1的成果,包罗:
言语工作:言语了解、言语生成、无OCR文天职类 跨模态迁徙:知识推理 非言语推理:IQ测试(瑞文递进矩阵) 感知-言语工作:图象阐明、视觉QA、网页QA 视觉工作:零样本图象分类、带形容的零样本图象分类 从试验后果下去看,Kosmos-1根本都hold住了。
零样本图象阐明: