华人澳洲中文论坛

热图推荐

    影史最知名的反派之一,将来都「不说人话」

    [复制链接]

    2022-10-7 18:12:52 61 0

    李安的举措科幻电影《双子杀手》里,政府特工亨利正筹备退休,却发现被一个比本人年老 23 岁的克隆体追杀。
    为了达到这个成果,李安用举措捕获殊效粗劣复原人脸,让威尔·史密斯「老态龙钟」。某位具有「完善的 23 岁皮肤」的年老女子,也为克隆体奉献了本人的数据。
    没有人永久年老,永久有人正年老。
    但「数字替身」彻底能够更贪婪,除了有不老的皮囊,还能够有不老的声响。
    召唤时光机
    《星球大战》的达斯·维德(Darth Vader),因身心俱毁而陷入原力的暗中面,在正传三部曲里为头等反派,也是星球大战系列中最具矛盾与惨剧颜色的人物。
    2003 年,美国电影学会将达斯·维德列为百年来第三伟大的电影反派,仅次于《缄默的羔羊》的汉尼拔和《惊魂记》的诺曼·贝茨。
    从 1977 年卢卡斯出品第一部《星球大战》以来,詹姆斯·厄尔·琼斯始终为达斯·维德配音,算到如今差未几贯通了一集体的半生,他的声响也就成为了角色的声响。


    ▲ 图片来自:screenrant
    达斯·维德无力却略为消沉的嗓音,配上深重的呼吸声,使人脊背发凉。
    但人类终将老去,琼斯往年曾经 91 岁,该斟酌完结配音生涯了,他抉择将声响受权给乌克兰初创公司 Respeecher。
    经过从前的录音和专有的 AI 算法,Respeecher 能够用旧的声响创立新的台词。


    ▲ Respeecher. 图片来自:inverse
    最新的效果,即是往年 6 月结束的星球大战衍生剧《欧比旺·克诺比》。
    剧中,Respeecher 重现了琼斯几十年前的音色,而不是他在 2019 年《星球大战:天行者突起》中因岁月而衰老的实在声线。
    和 Respeecher 协作的卢卡斯影业声响监视编纂 Matthew Wood 表现,像达斯·维德这样的角色,50 条台词可能需求近 1 万多个文件往返切换,大部份任务都耗在对话的变动和微调上。
    一个乏味的细节是,在达斯·维德出场的《欧比旺·克诺比》第 3 集,Respeecher 也被列入了演职员表。


    ▲ 图片来自:Lucasfilm
    这并非 Respeecher 第一次和卢卡斯影业协作,它还为星球大战衍生剧《曼达洛人》和《波巴·费特之书》中年老版的卢克·天行者「配音」。
    星球大战三部曲在 1977 年至 1983 年上映,过后饰演卢克·天行者的马克·哈米尔,往年也曾经 70 岁了。
    《曼达洛人》第二季最初一集,不到 20 岁的卢克·天行者出场,形象是视觉成果公司 Lola VFX 用 Deepfake 和替身制造的,声响则由 Respeecher 担任「克隆」。


    ▲《波巴·费特之书》卢克·天行者 CGI.


    ▲ 1983《星球大战 VI》卢克·天行者.
    Respeecher 所做的是,输出数小时的高品质录音,用 AI 语音分解软件和音频超分辨率算法剖析语音,直到零碎具备「克隆」才能。
    就像克隆羊需求 DNA,克隆声响也是有输出才有输入,录音的谈话格调、崎岖跌宕等细节都十分首要。
    所以,这项任务依然与人高度相干。「技术还不会发明扮演」,没有过往的真人扮演,那末 Respeecher 就大刀阔斧。
    从这个角度看,Respeecher 的 AI 犹如搭乘时光机的发声安装——它重现了某人过来的某个特按时刻。


    ▲《曼达洛人》卢克·天行者.
    为了让年老的天行者重现,Respeecher 采集了马克·哈米尔 1983 年先后的配音、采访、对白补录、无线电播送等资源。
    这里还有一处难点:让近 40 年历史的数据听起来像是昨天刚录制好的。
    终究,卢克·天行者只在两部衍生剧说了几行话。不外,无需以数量论短长,确保分解语音无奈与原始语音区别,观众彻底认识不到实在与否,才是 Respeecher 想要的后果。
    这家成立于 2018 年的初创公司指标很简略:克隆不让人起疑的人类语音。
    逾越病痛和生死
    人类生来受限,逃不外老病死,但技术能够裁减肉身的界限。
    克隆名人声响,并非第一次,也不会是最初一次。
    2022 年上映的《壮志凌云:独行侠》是 1986 年《壮志凌云》的续集,片中「冰人」卡赞斯基再次被 62 岁的瓦尔·基尔默(Val Kilmer)搬上银幕。
    但回归没有那末容易,从 2014 年承受喉癌医治开始,基尔默永久失去了他的声响。
    所以,《壮志凌云:独行侠》的剧本从基尔默的理想糊口取材,「冰人」也得了患上癌症并经过打字交流,在片中只说了一句冗长的台词。


    ▲ 图片来自:pagesix
    而在理想糊口中,基尔默的声响曾经经过 AI「恢复」。2020 年,基尔默开始与 AI 语音公司 Sonantic 协作。
    收到数小时的旧录相后,Sonantic 首先在不破坏语音内容的条件上来除配景乐音,再从音频中生成脚本,并将音频和文本一块块地配对,而后语音引擎用这些数据训练语音模型。
    难点在于,基尔默提供的数据比他们以往的名目少了大约 10 倍。为此,Sonantic 钻研了新的算法,终究生成为了 40 多种不同的语音模型,把其中最佳的一个交给基尔默。


    ▲ 图片来自:vanityfair
    有了自定义语音模型,基尔默和他的团队输出文本,选择适合的模式,调剂调子、节拍等参数,就可以完成传神的交流。
    这不单单是一项技术效果,还关乎人与人的沟通和分割。基尔默自己在一份声明中提到:
    作为人类,沟通才能是咱们生存的中心,喉癌的影响让其余人很难了解我。无机会以一种实在而相熟的声响讲述我的故事,这是一份十分特别的礼物。国际也有这样的例子。2021 年,喜马拉雅以语音分解技术让已故巨匠单田芳「再说」评书;2018 年,《翻新中国》纪录片用 AI 还原配音巨匠李易的声响。


    所以当你已经在世界留下过痕迹,就无奈等闲「事了拂衣去、深藏功与名」。
    关于仍要餬口的名人,克隆语音倒多是条「通天小道」。假如说 AI 换脸模型 Deepfake 让明星「出租」脸就可能赚得盆满钵满,语音模型也八两半斤。
    为基尔默「恢复」声响的 Sonantic 还有一项业务:为嗓子正常的演员创立声响模型。


    ▲ 图片来自:the verge
    平台先提供设置脚本,演员录制好这些脚本的扮演,而后再将录制的音频输出语音引擎,用引擎训练 AI 模型。终究,当分解声响被商用,演员们躺着就可以获取利润分红,无需亲力亲为,也不用耽心分身乏术。
    2021 年 5 月,美国 AI 技术公司 Veritone 也推出了相似的平台 Marvel.AI。这家公司以为,「关于静止员、演员和 KOL,声响是他们集体品牌的微小资产」。


    ▲ 图片来自:Veritone
    但这难免有偷懒之嫌,假如明星都不肯本人代言,消费者又凭甚么为他们买单?Veritone 倡议创立行业规范,好比提前告诉听众是分解语音,那就是「一个愿打一个愿挨」了。
    有技术战争台,名人克隆和出租声响彻底能够是产业链,这也是技术逾越肉体与时空限度的一种体现。
    人人具有「语音替身」的将来还远吗
    诚然,语音克隆不是陈腐事,但它依然需求一个愈来愈实在、繁难的进程,远远没有到达起点。
    在咱们看失掉或看不到的角落,语音克隆的遍及度愈来愈高,不仅是名人、明星等多数人的游戏。
    2017 年,加拿大 AI 初创公司 Lyrebird 开发了一种语音分解技术,宣称他们的算法能用 1 分钟的样本音频克隆任何人的声响。


    ▲ Lyrebird.
    1 分钟是个了不起的数字。当年 Adobe 的 Project VoCo,最少需求 20 分钟的样本音频。
    在 Lyrebird 给出的例子里,希拉里、克林顿、特朗普言笑晏晏,独特祝愿 Lyrebird 有美妙将来。他们的声响、腔调仍是和真人有些区分,机械感略重,但足够让人眼前一亮了。
    Lyrebird 表现,生成声纹需求至关多的计算才能,但一旦实现这一步,制造语音很容易,创立一千个句子不到半秒。
    这像是一则预言:越过实在和机械的门坎,之后便层峦叠嶂。
    除了所需的样本音频更少,语音克隆也曾经被内置在顺手可及的创作工具中。


    ▲ Descript.
    美国音视频编纂公司 Descript 开发了播客编纂功用「Overdu」,它能够克隆创作者的声响,创作者输出需求的单词,就可以用原有声响生成新的音频,便利疾速修正播客。
    但它也远非完善。The Verge 记者体验后发现,一方面,为了训练 AI,需求事后录制得多音频;另外一方面,生成的音频不足情感和顿挫抑扬,恰恰听起来的确是本人,使人心生奇异又莫名相熟。
    现在创公司各处开花,大型科技公司厚积薄发。
    往年 6 月的 Amazon re:MARS 大会上,亚马逊首席迷信家 Rohit Prasad 表现,亚马逊正在开发一种技术,允许智能助手 Alexa 经过不到 1 分钟的音频模仿任何人的声响。


    ▲ 图片来自:techcrunch
    任何人固然也包罗已故亲人。亚马逊还做了一次相干演示:一个孩子对 Alexa 说要听睡前故事《绿野仙踪》,扬声器传出的声响不是常见的机械音,而是已故祖母的声响。
    亚马逊没有透露 Alexa 新功用的更多细节,但底层技术曾经存在了好几年。
    能够预见,虽然语音克隆还无奈真正替代人声,但应用将至关普遍,好比有声读物、语音助手、视频游戏等。


    Sonantic 曾说:「CGI(计算机生成图象)为视觉所做的,就是 Sonantic 为音频所做的。」人人具有本人的「语音替身」,也许曾经近在眼前。
    而翻到硬币的另外一面,咱们对「语音替身」态度小心。


    ▲ 图片来自:Face2Face
    毕竟,Deepfake 的政治谣言、色情内容形成了不少负面影响,也就不难想象,语音模型会被用来做些甚么。假如不加防备,咱们将有一个照片能够捏造、录音也其实不牢靠的将来。
    几个月前,微软公布了新的 AI 品德规定,将严格限度谁能够创立分解声响,如何使用分解声响,并为人造声响掩盖避免滥用的「水印」。
    为《星球大战》兢兢业业的 Respeecher,曾公布过一部「1969 年」的短片,片中总统宣告月球上产生大范围灾害,听起来非常「实在」,但所有都是假的。
    短片在最初提示道:「这个名目使用了一系列的技术,包罗视频对话交换、语音转换零碎以及更传统的视频编纂,展现了过错信息可能的模样。请核实你的信源。」


    所以,Respeecher 并非想证实旧事和历史都能被把持。
    偏偏相同,他们但愿让人们意想到技术的存在和用途,以及技术的局限和歹意。既然车轮曾经滚滚向前,被更多地看见,能力被更好地标准和使用。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题28

    帖子33

    积分155

    图文推荐