华人澳洲中文论坛

热图推荐

    文心一言来了:超级出产力工具上线!

    [复制链接]

    2023-3-17 18:34:32 53 0


    来源 | Tech星球
    | 王琳
    百度生成式AI产品“文心一言”明天交卷了。
    就在下昼举办的旧事公布会上,李彦宏在现场展现了文心一言在文学创作、商业案牍创作、数理推算、中文了解、多模态生成五个使用场景中的综合才能。
    比较上去,在大模型通用的劣势才能上,好比文学创作才能、商业案牍写作才能、数理逻辑推算才能上,文心一言曾经逐步接近人类程度。乃至得益于百度这个最大的中文搜寻平台,文心一言具备杰出的中文了解才能。这是目前寰球任何生成类AI产品都无奈相比的。
    好比当你讯问文心一言,明日黄花与昨日黄花有甚么区分。它能够明白给出回复:

    而将一样的问题抛给ChatGPT,它显然无奈了解题意:

    而当一样的问题抛给ChatGPT,它似乎无奈做出更精密的评估:

    虽然,文心一言当初也其实不完善,李彦宏提及,这种大言语模型还远未到开展完美的阶段,提高空间很大,将来这段时间它一定会飞速开展,突飞猛进。
    但用户的热心不减。旧事公布会后三小时内,排队请求文心一言企业版API调用办事测试的企业用户已达6.5万家,请求产品测试网页屡次被挤爆,百度智能云官网流量飙升百倍。
    任何技术翻新的产生一开始都不是尽如人意的,而是缓缓迭代才得以完美。放在更长的视角来看,每一个次工业反动无不是先进的出产力取代后进的出产力,将人类从反复复杂的低端休息中解放出来,而这些当初看起来先进的出产力,在降生之初多多少少都存在问题。
    作为第四次工业反动一个景象级的产品,文心一言能够让每一个集体,每一个家公司无机会享用技术带来的红利。大模型根底设施公司、进行行业模型精调的企业、基于大模型底座进行运用开发的公司均可以将其视为一个API,衔接到运用顺序,改动一个又一个行业。
    过来10年,百度始终但愿把技术变为人人需求的产品,文心一言的泛起让这类但愿成了理想,每集体均可以利用这样先进的出产力工具,为本人办事,为企业办事。
    不夸大的说,文心一言是百度技术人员追赶技术改动世界的梦想的产物,是百渡过去10年压强式、马拉松同样的投入的效果,也是反馈驱动翻新的最好理论。
    寰球大厂第一个生成式AI产品寰球大厂,谁将第一个推出第一个类ChatGPT产品成了科技圈、创投圈甚至普通用户都最关注的事件。
    在2月8日举行的Google Event大会,谷歌率先展现了旗下类ChatGPT产品Bard,不外出了乌龙,Bard答错题了。谷歌颜面尽失,灰头土脸得撤下了YouTube相干演示视频。随后,谷歌没宣告公布日期,ChatGPT比想象的要难,谷歌并无筹备好。
    就在Google Event大会前一天,百度宣告其方案在往年3月推出与OpenAI的ChatGPT相似的人工智能聊天机器人办事,该名目名字肯定为文心一言,英文名ERNIE Bot,三月份实现内测,面向大众凋谢。随后,阿里、腾讯、华为都宣告入局,但他们和谷歌同样,并未发布产品公布的时间。
    百度这次没有吹嘘。明天下昼文心一言启动产品测评,虽然对标ChatGPT难度很高,但百度仍然是寰球大厂中第一个做出相似产品的。
    现场,李彦宏展现了文心一言在五个使用场景的表示,包罗文学创作、商业案牍创作、数理推算、中文了解和多模态生成。
    大模型在回答文学创作畛域的事实性问题常常犯的一个过错就是胡编乱造,或者说张冠李戴,Bard过后就是犯了这样一个过错。
    总结、剖析、检索内容对文心一言来讲不在话下,在明天下昼的产品测评中,文心一言按照对话问题将出名科幻小说《三体》的中心内容进行了总结,并提出了五个续写《三体》的倡议角度。
    文心一言还具备推理才能,好比当问到,“于和伟和张鲁一有哪些独特点”、“于和伟和张鲁一谁更高”这种问题,文心一言也能够得出了正确谜底。
    这是由于, 基于搜寻业务积攒,百度有世界上最大的常识图谱,始终努力于给用户提供独一谜底。这所有让文心一言回答精确性及生成后果的可托度失掉晋升。
    在商业案牍创作上,文心一言还能够带给你惊喜。当要求他给一个“用大模型办事中小企业数字化降级的科技办事公司”起名字时,它起完名字后,还会解释这个名字的意思。好比起名智信科技,是结合了智能和信赖的意思,体现了公司努力于中小企业提供智能化、可托赖的数字化办事。
    零碎并无教给文心一言这样的才能,然而有钻研标明,当数据范围大到参数达到千亿级,大模型就可能产生“智能涌现”,涌现出常识和逻辑推理才能。文心一言大模型的训练数据包罗万亿级网页数据,数十亿搜寻数据和图片数据,百亿级语音日均调用数据,及5500亿事实的常识图谱。因此,产生“智能涌现”,带给用户一些小惊喜其实不不测。
    固然,具备一定思惟才能的文心一言在“鸡兔同笼”这样的数学题时也表示杰出,最值得一提的是文心一言在中文了解和多模态上的表示。
    在现场展现中,文心一言正确解释了成语“洛阳纸贵”的含意、“洛阳纸贵”对应的经济学实践,还用“洛阳纸贵”四个字创作了一首藏头诗。
    李彦宏表现,文心一言能够处置英文,但它的表示尚无那末好。缘故是数据注入没有那末多,将来百度会继续增强投入,包罗其余语种。
    当初,信息流通的形式曾经远远不止文字,而是包孕图片、视频、音频在内的多模态方式,文心一言能够帮忙用户做海报鼓吹图、鼓吹视频,乃至能够用方言,如四川话、西南话往返答用户的问题。
    “多模态是生成式AI一个明白的开展趋向。”李彦宏表现,“将来,跟着百度多模态一致大模型的才能加强,文心一言的多模态生成才能也会不停晋升。”
    十年蓄力,最全的技术贮备百度可以成为寰球大厂第一个推出类ChatGPT产品不是偶尔。
    从内部来看,过来一个月,超过600家协作火伴宣告参加文心一言生态,期待及早用上最新最早进的大言语模型。而百度外部的得多产品,从搜寻到智能云,再到自动驾驶,市场和协作火伴都有明白需求。
    但更首要的是内因。
    天然言语处置是人工智能畛域的明珠,也是要解决的中心问题之一。2010年,王海峰博士参加百度成立了“天然言语处置部”,这也拉开了百度押注人工智能的尾声。
    百度扎根AI这些年,人类曾经从信息时期逐步进入到人工智能时期,IT技术的技术栈产生了基本性的变动,过来分为三层:芯片层,操作零碎层和运用层。当初能够分为四层:芯片层、框架层、模型层和运用层。
    百度是寰球为数未几进行全栈规划的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,搜寻、自动驾驶等AI产品,每一个层百度都有拥有当先劣势。
    外界不太相熟的是,在成立天然言语处置部后,百度也于20十一年开启了其自研芯片之路,是国际第一批自研 AI 芯片的互联网公司。比及2018年,昆仑芯片对外公布时,曾经反对了百度业务多年。当初,曾经有超过2万片昆仑芯片得以落地运用。
    2018 年7 月,李彦宏在百度 AI 开发者大会上喊出了要让“EveryoneCan AI”的标语,飞浆就是这一标语的理论者之一。2021年,飞浆超过了国外两个老牌深度学习框架TensorFlow和PyTorch,成为中国开发者使用至多的深度学习框架,在寰球排名第三。
    AI竞速实质上就是算法、算力、算据的竞争,而飞浆和昆仑芯片让百度集齐了这三大因素,恰是基于此,飞浆推出3年后,百度便推出了文心大模型ERNIE 1.0,这就是去年开始大热至今的“生成式AI”技术。目前文心大模型曾经迭代到第三代,ERNIE 3.0目前天天承受数十亿用户的搜寻申请和其余百度挪动生态app的训练,这让模型得以更精准。
    全栈规划的益处是四层架构之间,能够完成端到端优化,大幅晋升效力。尤为是框架层和模型层之间,有很强的协同作用,能够帮忙构建更高效的模型,并明显升高本钱。
    过来10年,AI有过得多争议时辰,投资人们感觉短期内无奈落地。投入Ai需求弱小的策略定力,毕竟短时间内它不克不及发生弱小的现金流而长时间来看商业价值微小。
    作为一家上市公司,百度需求衡量股东利益,但更需求找到能够坚持十年,二十年,乃至上百年的事件。百度没有只看眼前利益,而是找到了更具应战性的事业。公司坚持在技术上压强式投入,近十年累计研发投入超过 1000 亿元。
    刚刚过来的2022年百度中心研发费用达到214.16亿元,占百度中心支出比例达22.4%。如斯高的研发投入,在大厂中百里挑一。要知道,去年前三季度,阿里、腾讯、美团的研发投入占比分别约为15%、10%和8%。
    高研发投入也让百度贮备先发劣势,面对大模型惊人的算力需要做到熟能生巧。
    数据显示,跑通一次100亿以上参数量的模型,算力最少需求1000张GPU卡。GPU芯片中当先者如A100售价达1万美元, 微软Azure云办事为ChatGPT布署了超过1万枚英伟达A100 芯片。
    即便不使用顶级芯片,根据一张GPU五万元的市场均价计算,1000张GPU象征着单月最少5000万的本钱。业界测算,gpt-3单次训练本钱最少460万元。
    文心一言有万亿级参数,可想而知,其光GPU本钱就曾经耗损了可能10亿。这样来看,文心一言只是百度在AI技术上投入的一个天然后果。
    人人可用,最早进的出产力工具文心一言当初显然无奈完善回答用户的一切问题,在前端体验上仍然有些缺乏,事实上就连ChatGPT在其所长于的文本交互一开始也不克不及做到攻无不克。
    但咱们不克不及由于一些缺点就否认它的价值,无论是ChatGPT仍是文心一言,应该看到将来的开展后劲和可能性。
    文心一言和ChaGPT所采取的技术都是同样的,好比用于训练阶段的模型微调SFT, Supervised fine-tuning)、基于人类反馈的强化学习RLHF(reinforcement learning from human feedback)、给预训练大言语模型做提醒的Prompt都没有差异。
    咱们看到了文心一言的缺乏,也必需抵赖文心一言在某些方面威力弱小,好比文心一言不只能够处置文字,还能够辨认图片、视频和音频。而这类多模态言语,才是将来开展的趋向。
    文心一言的定位是人工智能基座型的赋能平台,你能够将其视为一个API,衔接到运用顺序,借助这个最早进的出产力工具,人们无望改动千行百业。
    好比,大模型根底设施公司经过云计算输入才能和办事,文心一言,将基本性地改动云计算行业的游戏规定。进行行业模型精调的公司,能够借助文心一言为行业客户提供更精准的解决计划。基于大模型底座进行运用开发的公司,能够像现在人们在安卓零碎上开收回App同样开收回一个个极具后劲的运用。
    最首要的是,普通人也能够用它来解决任务上的一些问题,好比写营销计划,写论文等等。切当得说,文心一言是一集体人可用的出产力工具。
    中信建投《人工智能行业专题讲演:从CHATGPT到生成式AI(Generative AI)-人工智能新范式,从新定义出产力》指出,生成式AI和此前的决策式AI模型最大的不同是,前者是按照已无数据剖析、判别、预测,然后者更强调学习归结落后行演绎发明、生玉成新的内容,实质上是对出产力的大幅度晋升和革新。
    不外终究,一个出产力工具是不是好用仍然需求人类的训练加持。
    这和大模型经过海量无标注数据训练是不同的,需求每一个位用户的实在反馈,这些真正的用户数据会融入到训练中,继续晋升成果。终究,打造出合乎人类使用习气的大言语模型。
    任何一项先进工具的创造在降生之初都不是完善的,200多年前,纽科门大气式蒸汽机降生,但效力低下。多年后,瓦特推出的改善版蒸汽机将效力进步了3倍,人类得以更快进入工业社会。
    100多年前,德国创造家奥托制作了世界上第一台内燃机,但其对燃料要求高,无奈大范围运用,起初燃料从煤气变为了汽油,热效力也从4.5%一步步冲破30%,火车、汽车借此泛起,人类的出行半径得以迅速扩展。
    作为生成式AI最典型的产品文心一言无疑是AI时期最早进的出产力工具,但这个工具仍然不敷好用。不外,历史曾经告知咱们,跟着人类使用、优化,每一个个工具都会愈来愈合乎人类使用习气。到了那时分,百度技术人员追赶技术改动世界的梦想又进了一步。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题23

    帖子31

    积分136

    图文推荐