虚拟数字人网

做一个虚拟数字人需要用到哪些技术

cnshuziren.com 技术前瞻 2022-08-16 20:03:32

技术:视觉制作层面建模、动/面捕捉、渲染为核心制作技术环节

数字虚拟人的制作涉及众多技术领域,且制作方式尚未完全定型,《2020年数字虚拟人发展白皮书》总结出在“数字虚拟人通用系统框架”,包含任务形象、语音生成 模块、动画生成模块、音视频合成显示模块以及交互模块。 在此基础上提炼出五横两纵的技术架构。“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中, 人物表达包括语音生成和动画生成,动画生成则包含驱动(动作生成)和渲染两大部分。“两纵”是指 2D、3D 数字人,3D 数字人需要额外使用三维建模技术生成数 字形象,信息维度增加,所需的计算量更大。 数字虚拟人视觉制作部分的工业化流程,涵盖了建模、骨骼绑定、动捕、面捕、渲染、材质解算等各个环节。

技术层面

建模:相机阵列扫描静态重建为主流,动态光场重建为发展重点

数字虚拟人建立的第一步需要进行前期的形象设计以及建模。2D数字虚拟人需要原画等形象设计,而3D数字虚拟人需要额外使用三维建模技术生成数字形象,信息维 度增加,所需的计算量更大,无论是基于IP或者真人设计,都需要进行面捕以及身体的建模。

3D建模技术目前主要包含静态扫描建模以及动态建模两类: 静态扫描建模仍为主流,其中相机阵列扫描重建快速发展,目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级) , 满足数字人扫描重建需求, 替代结构光扫描重建成为当前人物建模主流方式。 相比静态重建技术,动态光场重建不仅可以重建人物的几何模型, 还可一次性获取动态的人物模型数据, 并高品质重现不同视角下观看人体的光影效果, 成为数字人 建模重点发展方向。 海外Microsoft、Google、Intel、Facebook 等巨头公司都在积极展开相关研究,国内清华大学、商汤科技、华为等也展开了相关研究, 并取得 国际水平的同步进展。

建模绑定技术:技术突破不断

2018年,腾讯游戏旗下NExT Studios高保真数字虚拟人Siren(塞壬)亮相GDC,其高还原度媲美真人的形象,以及可实时驱动的表情动作;制作中“绑定技术“环节 就耗费了大半年时间。 2021年6月,由新华社、腾讯联合打造的全球首位数字航天员、数字记者“小诤”首次出现新华社数字视频中,带领用户漫游三大空间站;小诤项目的绑定流程较 Siren(塞壬)项目缩短了一半,依靠的就是创作团队创新沉淀出的高效人脸制作管线——xFaceBuilder。

驱动技术:智能合成、 动作捕捉为虚拟人主流动作生产方式

驱动动作技术包括手动调节关键帧、预制动作、动作捕捉、智能合成(文 字/语音驱动)等。手动调整动画关键帧与预制动作(类似MMD)无法实 现实时互动。

智能合成:其中2D、3D数字人均已实现嘴型动作的智能合成,其他面部/ 身体部位的动作智能合成未能完全实现。(报告来源:未来智库)

动捕:通过将捕捉采集的动作迁移至数字虚拟人是目前动作生成主要方式, 核心技术是动作捕捉。可分为光学式、惯性式及计算机视觉动捕等。现阶 段光学式和惯性式动捕占据主导。计算机视觉动捕虽然相对开发难度大, 目前精度较低,但就成本/对环境要求低,可移动范围大,使用场景想象力 较大,目前已有消费级应用(部分VR设备采用),成为聚焦热点。

渲染技术:硬件与算法突破,渲染真实与实时性大幅提升

渲染技术,是指把模型在视点、光线、运动轨迹等因素作用下的视觉画面计算出来 的过程。主要由离线与实时渲染两种类型。

离线渲染,就是在计算出画面时并不显示画面,计算机根据预先定义好的光线、轨 迹渲染图片,渲染完成后再将图片连续播放,实现动画效果。优点是渲染质量相对 好,美学和视觉效果好,缺点是无法实时控制,主要应用于影视等方面,代表性软 件包括Maya、3DMax等。

实时渲染,是指计算机边计算画面边将其输出显示,优点是可以实时操控,缺点是 要受系统的负荷能力的限制,必要时要牺牲画面效果,主要应用于游戏等方面,代 表引擎包括Unreal Engine(虚幻)、Unity Engine等。

随着硬件能力的提升和算法的突破, 渲染速度、效果真实度、画面分辨率均大幅 提升,在虚拟人物实时渲染方面,已经能做到以假乱真。2016年,EpicGames (虚幻引擎开发商)联合 3Lateral、Cubic Motion等公司联合开发的可实时驱动 的虚拟人物在当年的Siggraph会议中做了演示,成功在消费级的硬件环境下实时 渲染了高质量的虚拟角色。2018年5月,腾讯发布虚拟人Siren,也一个支持实时 渲染的虚拟人物。

技术层面:交互式数字虚拟人可分为真人/计算机驱动两种

从驱动技术角度来看,交互型数字虚拟人可分为真人和计算机驱动两种类型。

真人驱动型数字虚拟人,以真人为核心,用户可以通过3D建模、动作捕捉技术、渲染等技术,在网络上形成真人的虚拟化身,在动作灵活度、互动效果等方面有明显 优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟 人完成大型直播、现场路演等互动性、碎片化活动。

计算机驱动型数字虚拟人,以深度学习技术为主,本质上还是算法,但会拥有一个定制化的虚拟外表。计算驱动的数字虚拟人最终效果受到语音合成(语音表述在韵律、 情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术 的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~