华人澳洲中文论坛

热图推荐

    不再能用ChatGPT写功课了!新算法给AI生成文本加水印,相信度高达99.999999999994%

    [复制链接]

    2023-2-5 06:56:26 21 0

    原标题:不再能用ChatGPT写功课了!新算法给AI生成文本加水印,相信度高达99.999999999994%  
    明敏 Alex 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    AI生成文本,又遇新对手!  


    办法一经公布就引来少量网友围观。这回拿ChatGPT“做弊”,怕不是要更难了?  
    要知道,比来一段时间,ChatGPT先是成为美国高中生的写功课利器,前面帮专业媒体写稿子,诱发微小恐慌。如Nature、纽约教育部等,都针对ChatGPT公布禁令。  
    马里兰大学学者们提出的这一新办法,为解决这些费事提出了个新思绪。  
    不少网友都感觉,这个办法提出的恰是时分,并且成果看着也不错。  


    有学者还和美国高中生喊话,你们要做好筹备了!  


    展开全文    作者表现,办法代码将在2月15日收费开源。  
    计算文本由AI生成的几率   
    所谓模型水印,人类无奈看到,然而计算机能够。  
    这是一种当初被罕用于大范围言语模型(LLM)中的办法,能让AI生成的文本带有“特殊标志”。即把信号嵌入到生成的文本中,让算法能从一小段token中检测出来。  
    比来,OpenAI方面也表现,斟酌在ChatGPT中添加水印,以升高模型被滥用带来的负面影响。  
    这篇最新论文的作者,就想验证下这个设法究竟靠不靠谱。他们经过给LLM中嵌入水印,而后再进行检测。其中水印的嵌入不会影响文本生成品质。  
    详细来讲,大范围言语模型每次生成一个token,每个token将从包孕大约5万个辞汇的辞汇表中进行选择。  
    在新token生成以前,该办法会从基于比来已生成的token为随机数生成器 (RNG)提供“种子”,以此来压一个水印。   


    而后使用RNG,能将辞汇表分为 黑名单白名单,并要求LLM接上去只能从白名单中选择辞汇。   
    假如整段文本中, 白名单中的辞汇越多,就象征着越有多是AI生成的。   
    彩色名单的区别,基于一个准则:  
    人类使用辞汇的随机性更强。
        人类使用辞汇的随机性更强。  
    举例来讲,假如在“标致的”前面生成辞汇,水印算法会将“花”列入白名单,将“兰花”列入黑名单。  
    论文作者以为,AI更可能使用“花”这个辞汇,而不是“兰花”。  


    而后,就可以经过计算整段文本中白名单token泛起的状况,来检测水印。  
    假如一共有生成为了N个token,一切的token都使用了白名单辞汇,那末这段文字只要 2的N次方分之一几率是人类写的。   
    即使这段文字只要25个词组成,那末水印算法也能判别出它究竟是不是AI生成的。  
    但作者也表现,水印有时分也纷歧定彻底靠谱。  
    好比模型输入了“SpongeBob Square”,下一个单词一定会是“Pants”吧?然而Pants会被标志到黑名单里,即以为是只要人材会写的词。  
    (注:SpongeBob SquarePants是《海绵宝宝》动画片的英文,可了解为一个专着名词)  


    这类状况会重大影响算法的精确性,因此作者将其定义为 低熵token,由于模型简直不会有更好的选择。   
    对应来看,也会有 高熵token,好比“海绵宝宝觉得____”这个句式里,能填入的辞汇太多了。   
    关于这一状况,作者选择针对高熵token制订更强的规定,同时保存低熵token,确保水印品质更好。  
    与此同时,他们还添加了波束搜寻 (Beam search),允许LLM可以排布一全部token序列,以防止黑名单辞汇。   
    这么做,他们能确保LLM使用白名单辞汇的几率在大约 80%摆布,并且不影响文本生成品质。   


    由于在这段文字中,包孕36个token。假如是人类写的,那末文本中应该包孕9±2.6个白名单辞汇(白名单辞汇的几率约为25%)。  
    但这段文字中,包孕了 28个白名单辞汇。   
    计算来看,这段文字由人类写出的几率,仅有 0.0000000000006% (6乘以10的-15次方)。   


    如下标注的是文本中的黑名单token。  


    需求留意的是,假如想要水印正常发扬作用,其实不遭到攻打,就必需对文本进行一些规范化处置,而且需求检测某些类型的反抗性提醒。  
    这一办法是对外地下的,将在 2月15日开源代码。   
    加一个随机秘钥,也能变为窃密模式而且托管到API上,这能包管水印不会被窜改。  
    论文中使用的模型是Meta开源的 OPT-1.3B模型。   
    因为不必拜候底层模型,所以该检测办法的速度很快,本钱也不会很高。  
    并且能够使用规范言语模型生成带水印的文本,不必再从新训练。  
    网友:似乎很容易绕过?   
    巴特,不少网友感觉,这个办法的详细理论成果可能远不迭现实,质疑之声迭起。  
    有人提出:  
    假如我在AI生成的文字根底上,修正几个词,还能被查出来吗?那在交换成近义词后,检测精确率会降落多少?
      毕竟大家往往不会一字不改、间接用AI生成的内容。
        假如我在AI生成的文字根底上,修正几个词,还能被查出来吗?那在交换成近义词后,检测精确率会降落多少?  
    毕竟大家往往不会一字不改、间接用AI生成的内容。  


    对此,论文通信作者、马里兰大学副传授Tom Goldstein回答称:  
    关于一段自带水印的文字,最少得修正40%-75%的token,才可能胜利去除水印。
      (假如用其余顺序修正内容话),为产生同义词攻打,致使生成内容的品质很低。
        关于一段自带水印的文字,最少得修正40%-75%的token,才可能胜利去除水印。  
    (假如用其余顺序修正内容话),为产生同义词攻打,致使生成内容的品质很低。   


    简而言之,想要经过换近义词来打消水印,得大篇幅修正,并且若不是人亲身手动修正的话,成果会很拉胯。  
    还有人提出:  
    关于专门设计过的低熵token序列,应该能检测出水印。然而,长度和检测率之间 (存在一些矛盾),它们的优先级应该如何衡量?
        关于专门设计过的低熵token序列,应该能检测出水印。然而,长度和检测率之间 (存在一些矛盾),它们的优先级应该如何衡量?   


    对此,Tom传授表现:  
    按照设定,使用波束搜寻时,绝大少数 (一般为90%)的token在白名单上,即便是低熵token,也会被列入白名单。
      所以,最少得修正一半以上的token,能力删除水印,而这需求一个超级弱小的LLM模型才行,个别人很难接触到。
        按照设定,使用波束搜寻时,绝大少数 (一般为90%)的token在白名单上,即便是低熵token,也会被列入白名单。   
    所以,最少得修正一半以上的token,能力删除水印,而这需求一个超级弱小的LLM模型才行,个别人很难接触到。  


    不外,钻研者们也在论文中抵赖,这类办法的确存在一些局限性。  
    好比,检测水印的z统计量,只取决于白名单大小参数γ和生成白名单的哈希函数,和其余不少首要的参数并无甚么相干性。  
    这就让别人能够在上游水印检测器上做手脚,能够改动水印采样算法,从新部署水印,终究让本来生成的水印生效。  
    就连OpenAI CEO Sam Altman也表现:  
    发明完善检测AI剽窃的工具,从基本下去说是不成能的。
        发明完善检测AI剽窃的工具,从基本下去说是不成能的。  
    (只管他说OpenAI打算启用水印大法)  
    但话说回来,人们为了限度AI生成文字的负面影响,仍是殚精竭虑——  
    以前就有人搞出了一个检测ChatGPT的网站,名曰GPTZero,只需求把相应的内容粘进去,几秒内就可以剖析出后果。  


    论文地址:  
    http://arxiv.org/abs/2301.10226  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    PS. 加好友请务必备注您的姓名-公司-职位噢 ~  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题40

    帖子54

    积分232

    图文推荐