可视化数字人技术在 Soul 的运用

砖头

导读：本文将为大家引见数字人技术在 Soul 平台的运用与结合，次要包罗下列内容：
配景引见症结技术场景运用总结与瞻望分享佳宾｜甘启 Soul 交互技术担任人
编纂整顿｜宋本生
出品平台｜DataFunSu妹妹it
01
配景引见
首先引见一下 Soul 的社交元宇宙概念，以及自研的 N?W? 渲染引擎在端侧的使用状况。
1. Soul 的社交元宇宙概念

u1nf4bjbzr3.jpg

Soul的社交元宇宙是与理想时间平行、实时在线的一个虚构世界，人们在这里能够凭借本人的虚构化身，基于本人的信息图谱或保举，体验多样的沉迷式社交场景，在接近真正的体验中去交流文娱，终究找到与本人情投意合的敌人建设社交瓜葛。所以咱们以为社交元宇宙具备虚构化、社交资产、沉迷式、容纳性等症结特点，Soul 努力于经过对AR/VR等虚构理想技术的投入，继续晋升用户在 APP 的沉迷式体验，用户能够在Soul下面借用数字人新的身份去进行轻松的、无顾虑、更放开的沟通表白。
2. Soul 的场景要求
Soul 的用户是以 Z 时期、95 后和 00 后为主的年老人，咱们的 APP 更激励用户去分享本人乏味的灵魂，也就是兴致喜好、发明力等。咱们是基于手机真个一个 APP，需求斟酌部署在手机真个算力和内存危险，基于此 Soul 的场景有下列要求：

w5sfhun2ezf.jpg

3. N?W? 引见
基于以上运用场景要求，咱们自研了一套 N?W? 渲染引擎。它是一个集 AI、渲染与图象处置于一体的集成化 SDK，输入包孕 Avatar 心情驱动，美妆美颜，卡通化等十余种图象处置与 2/3D 渲染才能，同时开发了婚配的编纂器，进行共性化出产。

qqmdblkwykt.jpg

N?W? 引擎不单单是用于端内数字人使用，同时还反对一些殊效、图象处置的场景，底层还反对框/角检测、宠物症结点检测、3D 人脸重建、心情手势辨认、Gan 的格调化，还有 2D 的人像丑化、贴纸相干的渲染技术，以及 3D avatar和 3D body、3D 贴纸和场景渲染的一些才能。

2pzizfgjkfd.jpg

02
症结技术
1. 技术线路
Soul 数字人技术是根据头部、半身、全身这样的技术线路开展，后续持续结合语音、NLP 才能去做文字和语音的实时驱动。

qpy3ezdljoh.jpg

以后次要仍是手持摄像头前置的场景，次要是头部和上半身实时捕获驱动，会去捕获头部的位姿和心情辨认。在渲染的部份做了捏脸技术和高维度的动画信息。头部的驱动仍是以 BS 的驱动为主。关于半身，采取了对比精密的手部姿势估量，再加之 IK 零碎，同时做头部和身材的绑定，造成驱动。关于全身，是在后面的根底上再加之身材姿势的估量。全身的状况下还会引入衣服、饰品、鞋子等，所以会有特殊材质的渲染。
2. 辨认&驱动
（1）头部

nn2u0jngvbz.jpg

头部辨认次要是常见的面部检测、人脸重建，以及对比精密化的心情辨认。头部的光照信息是可选的，关于高端时机引入一些光照信息帮忙渲染，低端机则放一些预置好的信息。精密化心情辨认部份，引入了眼眉瞳以及嘴舌的辨认，能够更好地去捕获一些乏味的举措。

suhwpnlb3eh.jpg

驱动次要是一个根底头，加之 74 个捏脸系数造成捏脸头，再添加 56 个心情系数造成一个心情头，在这个根底上加之一些配饰、动画、骨骼动画等，造成共性化的人脸，终究完成一个心情驱动的 Avatar 动画的场景。

hwfpxluliqr.jpg

上图是一个解决详细技术问题的 Case。咱们在建模时，眉毛部份和面部Mesh 是离开的，关于正轨的眉形没有问题。但有些用户会捏出一个很奇怪的外形，此时假如间接驱动，就会造成左图的成果。因此咱们在变形迁徙的根底上，加之了眉毛和脸部的一些蒙皮成果。采取了这样的解决计划后，能够看到右图的成果有了显著晋升。

pp5usatpydb.jpg

上图展现了线上的一些成果。经过上述技术，能够捏出各种各样的人脸，也能够做出各种不同的心情。左图的人物的头发能够跟着举措而灵动地飘起来，这样会带来明显的生动性的晋升。
（2）半身

kegtez4jkiq.jpg

经过上述的头部相干信息，加之手部的辨认举措，手部会先获取一个手框，而后转为 3D 的症结点，失掉一个拓扑瓜葛。

gtuznxtiicp.jpg

前文中提到过，因为端侧机能的限度，咱们在半身驱动时采取的是双手加之头的驱动形式，如何经过双手和头的地位去完成全部上自身骨骼的驱动，次要是靠 IK 技术的运用。按照骨骼的终节点计算其余副节点的地位，好比经过手的地位推断手腕、手肘和肩部的地位。

1o2ofl1ffjr.jpg

总体计划为，经过面部的大小和地位，以及手部的大小和地位，获取一条教训曲线，按照教训曲线去推断肩关节和腕关节的相对于地位，肩关节和腕关节造成了两个骨骼的根本构造，再以腕关节为终端反向求解肘关节的地位。
（3）全身

scwofcmp4uo.jpg

2D 姿势的预算以后采取的是基于 Heatmap 热力求的计划，先基于人体框的检测，而后做数据预处置和症结点的检测，再做一些症结点的改正。首先运用于实时 2D 的简略纸片人驱动，基于 2D 算法跑出来的一些 xy 的后果，能够用于 3D 驱动的前置数据。

5rsgqlh545a.jpg

3D 姿势的预算会先拿 2D 计算失掉的 xy 的后果坐标，输出到一个网络中获取 z 标的目的的坐标，失掉 3D 的症结点和拓扑瓜葛，从而就失掉了人驱动的 3D 骨骼信息，再去驱动数字人。

ztbbvvqyscj.jpg

在 3D 驱动中，有两个需求留意的点。首先，咱们是卡通人形象，与真人的骨骼构造差别对比大，这样真人骨骼比例无奈间接运用，需求先去做一个 Mapping。此外，得多骨骼是不克不及 360 度旋转的，因此在驱动中会去做一些限度。咱们还会经过症结帧去驱动，完成精密化的成果。
3. 渲染

ucsvpqr3rxj.jpg

衣料的成果对比首要，自研的引擎能够反对镭射、半通明、皮革等成果，同时也能够实时的去展现一些暗影成果，晋升实在性和生动性，也能够在边沿加之轮廓光减少平面感。
4. 设计资源

hsbbhoqiyai.jpg

总体的数字人的视觉成果仍是对比依赖于设计和美术资源，Soul 提供了丰硕的合乎年老人审美的各种衣饰和装潢，供大家自在选择。
03
运用场景
Soul 是属于社交型的 APP，这个元宇宙更重视用户便捷式的沉迷式体验，用户在 Soul 的元宇宙广场中，能够获取游戏化的社交体验，但它又不是游戏，能够防止繁琐的操作流程，能够疾速的在不同的场景中穿越，找到乏味之处。
1. 捏脸&聊天

v1myt1gixdj.jpg

Soul 能够反对预制形象、捏脸形象，也能够反对用户经过拍照生成本人的形象，升高用户操作门坎，同时也反对视频聊天一对一或多人派对的殊效场景。
2. 沉迷场景

lkyisr5pyro.jpg

同时 Soul 也会具有一个多人和广场的场景，用户能够看到他人的形态，能够大家一同去共建一个乏味的虚构世界。
04
总结与瞻望
1. 总结
Soul 的数字人技术线路是以从头部、半身到全身的一个渐进化的技术线路，对比实用的平民化线路，同时它也是一个图形图象+设计协同开发的形式，整套计划高度自研，外部能够做得多互补和合作。
2. 瞻望
后续会关注下列几方面：
用图象、语音和文字综合去驱动数字人，在更多的场景中扩展运用在元宇宙大同概念中，完成虚构形象和资产格局的互通在手机或AR/VR硬件中，进行真假结合的场景中落地明天的分享就到这里，谢谢大家。
｜分享佳宾｜

4pzdad3nsob.jpg

甘启
Soul 交互技术担任人
上海恣意门科技无限公司（Soul）交互技术部门担任人。2020年参加Soul视觉算法团队，2021年担任组建交互技术团队，现担任交相互关视觉和渲染算法等才能的布局和研发。
2016年结业中国迷信技术大学，获取硕士学位。曾就职于华为，从事图象算法开发任务。
｜DataFun新媒体矩阵｜

｜对于DataFun｜
专一于大数据、人工智能技术运用的分享与交流。发动于2017年，在北京、上海、深圳、杭州等城市举行超过100+线下和100+线上沙龙、论坛及峰会，已约请超过2000位专家和学者参预分享。其大众号 DataFunTalk 累计出产原创文章800+，百万+浏览，15万+精准粉丝。

华人澳洲中文论坛

热图推荐

可视化数字人技术在 Soul 的运用

发表回复

浏览过的版块

砖头
关注TA

图文推荐

撞穿学校栅栏害死十一岁男孩的司机不必坐牢

全科医生正告花粉症时节正在好转

新西兰总理：出世在新西兰的新纳粹Thomas S

新州护士和助产士承受暂时加薪3%的前提

新纳粹份子如何利用“普通父母”的掩护在反

华人澳洲中文论坛

热图推荐

可视化数字人技术在 Soul 的运用

发表回复

浏览过的版块

砖头 关注TA

图文推荐

撞穿学校栅栏害死十一岁男孩的司机不必坐牢

全科医生正告花粉症时节正在好转

新西兰总理：出世在新西兰的新纳粹Thomas S

新州护士和助产士承受暂时加薪3%的前提

新纳粹份子如何利用“普通父母”的掩护在反

砖头
关注TA