|
导读:本文将为大家引见数字人技术在 Soul 平台的运用与结合,次要包罗下列内容:
配景引见症结技术场景运用总结与瞻望分享佳宾|甘启 Soul 交互技术担任人
编纂整顿|宋本生
出品平台|DataFunSu妹妹it
01
配景引见
首先引见一下 Soul 的社交元宇宙概念,以及自研的 N?W? 渲染引擎在端侧的使用状况。
1. Soul 的社交元宇宙概念
u1nf4bjbzr3.jpg
Soul的社交元宇宙是与理想时间平行、实时在线的一个虚构世界,人们在这里能够凭借本人的虚构化身,基于本人的信息图谱或保举,体验多样的沉迷式社交场景,在接近真正的体验中去交流文娱,终究找到与本人情投意合的敌人建设社交瓜葛。所以咱们以为社交元宇宙具备虚构化、社交资产、沉迷式、容纳性等症结特点,Soul 努力于经过对AR/VR等虚构理想技术的投入,继续晋升用户在 APP 的沉迷式体验,用户能够在Soul下面借用数字人新的身份去进行轻松的、无顾虑、更放开的沟通表白。
2. Soul 的场景要求
Soul 的用户是以 Z 时期、95 后和 00 后为主的年老人,咱们的 APP 更激励用户去分享本人乏味的灵魂,也就是兴致喜好、发明力等。咱们是基于手机真个一个 APP,需求斟酌部署在手机真个算力和内存危险,基于此 Soul 的场景有下列要求:
w5sfhun2ezf.jpg
3. N?W? 引见
基于以上运用场景要求,咱们自研了一套 N?W? 渲染引擎。它是一个集 AI、渲染与图象处置于一体的集成化 SDK,输入包孕 Avatar 心情驱动,美妆美颜,卡通化等十余种图象处置与 2/3D 渲染才能,同时开发了婚配的编纂器,进行共性化出产。
qqmdblkwykt.jpg
N?W? 引擎不单单是用于端内数字人使用,同时还反对一些殊效、图象处置的场景,底层还反对框/角检测、宠物症结点检测、3D 人脸重建、心情手势辨认、Gan 的格调化,还有 2D 的人像丑化、贴纸相干的渲染技术,以及 3D avatar和 3D body、3D 贴纸和场景渲染的一些才能。
2pzizfgjkfd.jpg
02
症结技术
1. 技术线路
Soul 数字人技术是根据头部、半身、全身这样的技术线路开展,后续持续结合语音、NLP 才能去做文字和语音的实时驱动。
qpy3ezdljoh.jpg
以后次要仍是手持摄像头前置的场景,次要是头部和上半身实时捕获驱动,会去捕获头部的位姿和心情辨认。在渲染的部份做了捏脸技术和高维度的动画信息。头部的驱动仍是以 BS 的驱动为主。关于半身,采取了对比精密的手部姿势估量,再加之 IK 零碎,同时做头部和身材的绑定,造成驱动。关于全身,是在后面的根底上再加之身材姿势的估量。全身的状况下还会引入衣服、饰品、鞋子等,所以会有特殊材质的渲染。
2. 辨认&驱动
(1)头部
nn2u0jngvbz.jpg
头部辨认次要是常见的面部检测、人脸重建,以及对比精密化的心情辨认。头部的光照信息是可选的,关于高端时机引入一些光照信息帮忙渲染,低端机则放一些预置好的信息。精密化心情辨认部份,引入了眼眉瞳以及嘴舌的辨认,能够更好地去捕获一些乏味的举措。
suhwpnlb3eh.jpg
驱动次要是一个根底头,加之 74 个捏脸系数造成捏脸头,再添加 56 个心情系数造成一个心情头,在这个根底上加之一些配饰、动画、骨骼动画等,造成共性化的人脸,终究完成一个心情驱动的 Avatar 动画的场景。
hwfpxluliqr.jpg
上图是一个解决详细技术问题的 Case。咱们在建模时,眉毛部份和面部Mesh 是离开的,关于正轨的眉形没有问题。但有些用户会捏出一个很奇怪的外形,此时假如间接驱动,就会造成左图的成果。因此咱们在变形迁徙的根底上,加之了眉毛和脸部的一些蒙皮成果。采取了这样的解决计划后,能够看到右图的成果有了显著晋升。
pp5usatpydb.jpg
上图展现了线上的一些成果。经过上述技术,能够捏出各种各样的人脸,也能够做出各种不同的心情。左图的人物的头发能够跟着举措而灵动地飘起来,这样会带来明显的生动性的晋升。
(2)半身
kegtez4jkiq.jpg
经过上述的头部相干信息,加之手部的辨认举措,手部会先获取一个手框,而后转为 3D 的症结点,失掉一个拓扑瓜葛。
gtuznxtiicp.jpg
前文中提到过,因为端侧机能的限度,咱们在半身驱动时采取的是双手加之头的驱动形式,如何经过双手和头的地位去完成全部上自身骨骼的驱动,次要是靠 IK 技术的运用。按照骨骼的终节点计算其余副节点的地位,好比经过手的地位推断手腕、手肘和肩部的地位。
1o2ofl1ffjr.jpg
总体计划为,经过面部的大小和地位,以及手部的大小和地位,获取一条教训曲线,按照教训曲线去推断肩关节和腕关节的相对于地位,肩关节和腕关节造成了两个骨骼的根本构造,再以腕关节为终端反向求解肘关节的地位。
(3)全身
scwofcmp4uo.jpg
2D 姿势的预算以后采取的是基于 Heatmap 热力求的计划,先基于人体框的检测,而后做数据预处置和症结点的检测,再做一些症结点的改正。首先运用于实时 2D 的简略纸片人驱动,基于 2D 算法跑出来的一些 xy 的后果,能够用于 3D 驱动的前置数据。
5rsgqlh545a.jpg
3D 姿势的预算会先拿 2D 计算失掉的 xy 的后果坐标,输出到一个网络中获取 z 标的目的的坐标,失掉 3D 的症结点和拓扑瓜葛,从而就失掉了人驱动的 3D 骨骼信息,再去驱动数字人。
ztbbvvqyscj.jpg
在 3D 驱动中,有两个需求留意的点。首先,咱们是卡通人形象,与真人的骨骼构造差别对比大,这样真人骨骼比例无奈间接运用,需求先去做一个 Mapping。此外,得多骨骼是不克不及 360 度旋转的,因此在驱动中会去做一些限度。咱们还会经过症结帧去驱动,完成精密化的成果。
3. 渲染
ucsvpqr3rxj.jpg
衣料的成果对比首要,自研的引擎能够反对镭射、半通明、皮革等成果,同时也能够实时的去展现一些暗影成果,晋升实在性和生动性,也能够在边沿加之轮廓光减少平面感。
4. 设计资源
hsbbhoqiyai.jpg
总体的数字人的视觉成果仍是对比依赖于设计和美术资源,Soul 提供了丰硕的合乎年老人审美的各种衣饰和装潢,供大家自在选择。
03
运用场景
Soul 是属于社交型的 APP,这个元宇宙更重视用户便捷式的沉迷式体验,用户在 Soul 的元宇宙广场中,能够获取游戏化的社交体验,但它又不是游戏,能够防止繁琐的操作流程,能够疾速的在不同的场景中穿越,找到乏味之处。
1. 捏脸&聊天
v1myt1gixdj.jpg
Soul 能够反对预制形象、捏脸形象,也能够反对用户经过拍照生成本人的形象,升高用户操作门坎,同时也反对视频聊天一对一或多人派对的殊效场景。
2. 沉迷场景
lkyisr5pyro.jpg
同时 Soul 也会具有一个多人和广场的场景,用户能够看到他人的形态,能够大家一同去共建一个乏味的虚构世界。
04
总结与瞻望
1. 总结
Soul 的数字人技术线路是以从头部、半身到全身的一个渐进化的技术线路,对比实用的平民化线路,同时它也是一个图形图象+设计协同开发的形式,整套计划高度自研,外部能够做得多互补和合作。
2. 瞻望
后续会关注下列几方面:
用图象、语音和文字综合去驱动数字人,在更多的场景中扩展运用在元宇宙大同概念中,完成虚构形象和资产格局的互通在手机或AR/VR硬件中,进行真假结合的场景中落地明天的分享就到这里,谢谢大家。
|分享佳宾|
4pzdad3nsob.jpg
甘启
Soul 交互技术担任人
上海恣意门科技无限公司(Soul)交互技术部门担任人。2020年参加Soul视觉算法团队,2021年担任组建交互技术团队,现担任交相互关视觉和渲染算法等才能的布局和研发。
2016年结业中国迷信技术大学,获取硕士学位。曾就职于华为,从事图象算法开发任务。
|DataFun新媒体矩阵|
![](https://bbs.china2au.com/bbsimg/20221230/esxmxignriy.jpg)
|对于DataFun|
专一于大数据、人工智能技术运用的分享与交流。发动于2017年,在北京、上海、深圳、杭州等城市举行超过100+线下和100+线上沙龙、论坛及峰会,已约请超过2000位专家和学者参预分享。其大众号 DataFunTalk 累计出产原创文章800+,百万+浏览,15万+精准粉丝。 |
|