华人澳洲中文论坛

热图推荐

    百度要推中国版ChatGPT,质量待视察,审查不会少(视频/组图)

    [复制链接]

    2023-2-3 13:30:32 24 0

    本文转载自美国之音中文网,仅代表原出处和原作者观念,仅供参考浏览,不代表本网态度和立场。
    美国人工智能钻研机构开发的AI解答顺序ChatGPT自去年十一月横空出生后,其貌似对任何问题来者不拒的弱小表示在寰球爆红,也诱发中国用户关注。
    百度公司比来宣告,将推出相似ChatGPT的中文工具。剖析以为,百度虽具技术实力,但中文版的同类工具品质能否与美版媲美还有待视察,其AI工具代入政治审查也将是必定。

    2023年1月5日,一位用户在纽约布鲁克林的一所公立学校左近用手机使用ChatGPT的问答功用。
    ChatGPT:AI的中心技术冲破
    基于人工智能(AI)技术的对话式聊天工具曾经泛起多年,经常用于虚构客服、企业培训等畛域。不同于这些传统的对话软件,由美国OpenAI钻研试验室开发的ChatGPT能够进行的对话更加繁杂,凭借其海量数据贮备,对任何发问来者不拒,乃至能够说笑话、起名字、吟诗作对——这些言语功用之前被以为是机器人无奈掌握的创意任务。
    同时,ChatGPT还具备编写和调试计算机顺序的才能。美国宾夕法尼亚大学沃顿商学院传授克里斯蒂安·特尔维什(Christian Terwiesch)往年1月颁发文章透露,ChatGPT经过了他掌管的一次工商办理硕士(MBA)考试;比来,ChatGPT还经过了明尼苏达大学法学院传授给出的四项先生测试。
    业界以为,ChatGPT标记着机器学习和人工智能的中心技术冲破。
    台湾AI试验室开创人、曾任微软公司AI部门亚太区钻研总监的杜奕瑾比来在承受美国之音采访时说:“它(ChatGPT)利用宏大的材料、宏大的深化学习网路,透过十分高阶的初级电脑运算,透过这类运算出来的后果……透过了解残缺的文件,去回答相对于繁杂的问题。”
    杜奕瑾说:“要能回答的好,不论是文本的数量级、模型的繁杂度、超级电脑的运算才能,都是有很大的冲破才有方法做到这个后果。
    ChatGPT界面简略,使用流利,面前撑持的是美国科技公司的雄厚财力和技术实力,以及AI技术人材。
    ChatGPT的技术依靠于OpenAI试验室的“生成型预训练变换模型3”(简称GPT-3)。GPT-3这一大型言语模型出身谷歌公司2017年开收回的“Transformer”凋谢架构,能够写出与人类言语难以区别的文章。


    美国OpenAI试验室的标记
    乔治·华盛顿大学助理传授、钻研AI相干政策问题的专家杰弗里·丁(Jeffrey Ding)对美国之音说:“初期的GPT-3模型根本上是在少量互联网文本上训练的,这方面的数据来自学术期刊文章,是在Reddit(网络论坛)、维基百科等语料库(corpus)上训练的。”
    他说:“因此,这需求少量的数据、少量的计算才能,以及少量优秀的钻研人员和工程师来确保训练以高效的形式进行……关于这些大型言语模型来讲,入行门坎十分高。”
    微软公司给予OpenAI首要的资金反对,于2019年7月投资10亿美元,并在不久之后取患了GPT-3的独家受权。ChatGPT降生后,往年1月23日,微软宣告再向OpenAI提供数年的投资。据美国旧事网站Semafor此前报导,微软这轮总注资金额可能高达100亿美元。

    微软公司纽约办公室(材料图片)
    在美国旧金山湾区一家出名科技公司AI名目任职的华侨科研人士对美国之音说,OpenAI去年招募少量人力来“训练”(tutor)基于海量数据的人工智能模型,降生的ChatGPT因此比GPT-3架构有了质的奔腾。
    这名要求匿名的科研人员对美国之音说:“在ChatGPT以前……2020年、2021年版本的GPT-3是没有人类(参预)的数据,它是经过少量因特网上的文本进行训练。直到去年,它们开始把人加进去,雇了得多得多人来做标注,来把模型训练得很好,比网上许多那些开源的模型、开源的large language model(大型言语模型),ChatGPT要比他们的品质好得十分多。一大半的功勋是归功于这些人做的这些标注。”
    这名科研人员估量,让ChatGPT放弃运作,最少需求上千、甚至上万台GPU(图形处置器)。
    “这一块只要最大的big tech(科技巨头),好比微软、Google、英伟达,这样的公司外部能够有这样的机群,这样大的计算力。”他说。
    百度蠢蠢欲动 文实质量有待视察
    彭博社1月29日报导说,中国搜寻网站巨头百度也将推出相似ChatGPT的工具,技术根底将根植于百度的大范围机器学习模型ERNIE 3.0零碎。
    以搜寻办事起家的百度曾经在人工智能钻研上破费了数十亿美元,多年来始终试图从网络营销过渡到下一代新兴技术,例如云办事、芯片、汽车自动驾驶等。
    ChatGPT走红后,中文用户对此兴致浓重。虽然美国的ChatGPT工具反对中文问答,但包罗ChatGPT在内的OpenAI试验室的办事不合错误中国境内用户凋谢。此前曾有顺序开发者将ChatGPT以微信小顺序的方式接入微信平台,让中国国际用户参预使用,但自十二月中旬以来,这一小顺序因“违规”被微信暂停了办事。
    据报导,百度方案在往年3月推出中国版本的ChatGPT,最后版本将嵌入其搜寻办事中,让用户获取对话式的搜寻后果。有中国媒体报导,百度首席履行官李彦宏表现,相干技术曾经达到临界点,百度在其中有较大的时机。
    旧金山湾区的那名科研人员以为,百度是最先投身大范围言语模型的公司之一,有技术实力开展出本人的“ChatGPT”。他说:“他们(百度)的研发搞了很久了。并且百度的财力和人力是有的,数据是有的,它那末多的搜寻、网页,百度云存了得多的网页,所以不缺数据。”
    “国际人工费也廉价,所以标注数据可能比OpenAI还廉价,本钱不高。”

    百度首席履行官李彦宏2018年7月4日在中国北京举办的百度开发者大会上宣讲人工智能。
    美国科技网站TechMonitor.ai指出,百度钻研人员与中国鹏城试验室协作公布的“鹏城-百度·文心”(ERNIE 3.0 Titan)预训练言语模型拥有2600亿个参数,超过ChatCPT的技术根基(GPT-3.5模型)1750亿的参数数量。
    不外,有钻研人员说,中国互联网的文实质量,可能将制约百度版本的ChatGPT办事品质。
    乔治·华盛顿大学的杰弗里·丁说:“就品质而言,百度在制造本人版本的ChatGPT时将面临的应战之一是,互联网上没有那末多高品质的中文文本,由于高品质中文文本的语料库(corpus)比高品质英文文本的语料库要小。许多在这一畛域任务的中国钻研人员都指出过这个症结的区分。”
    “以顶尖的学术论文为例,高品质的英语文章亘古未有,而中文的却没有那末多。”丁对美国之音说。
    他还表现:“百度的资金和算力限度也比OpenAI更大。因此,这两个要素可能会升高百度版本ChatGPT的潜伏品质。”
    百度版ChatGPT是不是会“一本正派地胡言乱语”?
    目前ChatGPT一个凸起问题是,这一聊天工具经常以看似庄重的形式,在一些问题上信口开合,以貌似主观权威的文风给出拥有误导性的谜底,乃至是重大的不实信息。人工智能专家将这一问题描述为“一本正派的胡言乱语”。
    在ChatGPT推出的初期阶段,即便面对难以回答、或者拥有荒诞假定条件的问题,聊天机器人仍是会自信满满地给出简明扼要的“谜底”。对比着名的例子是,曾有用户发问“为何氰化钾炒菜特别香”,ChatGPT居然将这一剧毒物资描述为一种厚味的调料,称“尤为合适参加印度咖喱”。
    与此同时,有用户指出,ChatGPT在一些政治议题上似乎进行自我审查,包罗在敏感话题上防止提出批判中国政府的意见。剖析以为,百度开发的中国版ChatGPT,在处置问题时的“政治审查”将更加深化。
    美国独立学者金培力(Philip J. Cunningham)是ChatGPT的后行使用者。他在对这一“机器人”的英语表白才能感到赞赏的同时,也感到其“写作”有时浮泛无物。
    “它制作了一个主观的语气,但它其实不主观,但它收回一个十分使人服气的声响,由于在某种水平上,它十分确信本人。”金培力对美国之音说。
    “不单单是句式完善,并且它是有组织的。它引入一个主题,代入次要部份,而后总结,很好地成篇联贯在一同。所以这是一篇文章。……但若你子细看,它实际上简直甚么都没说。”
    “我以为它十分合适《中国日报》之类的货色,假如你想写一些不会干犯任何人的货色的话。”金培力说。
    视察人士以为,百度版的ChatGPT也将不成防止地代入内容政治审查。百度去年8月推出的文本生成图象AI模型ERNIE-ViLG就回绝为政治敏感话题和政治领导人的形容生成图象。
    “在中国,为普遍消费者使用而推出的任何人工智能技术都将面临遵循国度审查原则的压力,并且这些人工智能技术极可能是经过少量民间媒体文章培训出来的,这些文章在普遍的问题上都要坚持北京的民间立场。”福坦莫大学法学传授、美国内政瓜葛协会初级钻研员明克胜(Carl Minzner)经过电子邮件对美国之音说。
    “在美国,人们说,不要说任何种族主义的话,而后就训练机器不要带有种族主义;在中国,人们训练机器不要批判习近平,不要批判共产党。这很容易。” 金培力表现。
    他说:“(在美国)更多的是对‘政治正确’的耽忧;在中国,耽心更多的是对当权者的批判。”
    中国出台法规凑合AI“深度捏造”
    不外,也有剖析人士指出,近些年来以文字转图象生成软件和ChatGPT智能聊天软件为代表的“生成式人工智能”(Generative AI)将为一切国度的政府和社会提出如何监管和如何甄别虚伪信息的应战。
    新美国基金会(New America)数字经济钻研员、斯坦福大学网络政策核心“数字中国”(DigiChina)名目主编魏光明(Graham Webster)说:“依托这些黑箱算法传递信息的危险在于,没有人在这一过程当中反省信息究竟是不是好的。”
    他对美国之音说:“人们可能会置信某些货色是真的,由于输入(的信息)听起来使人服气,但可能不是真的。这不单单是在中国,世界各地的人们、政府、公司、用户都必需面对这个问题。”
    中国往年1月10日开始正式实行针对“深度捏造”(deep fake)的《互联网信息办事深度分解办理规则》,要求办事提供商对那些“可能致使大众混杂或者误认的”AI生成内容进行“明显标识”。
    不外,即便中国可以要求科技平台对“深伪”的图象内容进行相似于水印的标注,如何对容易复制和流传的文字进行“明显标识”,将为执政者带来技术困难。
    本文转载自美国之音中文网,仅代表原出处和原作者观念,仅供参考浏览,不代表本网态度和立场。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题5

    帖子25

    积分93

    图文推荐