底层软硬件技术决定数字人系统“进化”水平
基础层为 AI 数字人提供底层软硬件技术支撑,包括计算机图形学(CG)技术、人工智能技术和通用设施技术等。正如导语中所述,这些技术的综合运用能力和成熟度将决定数字人系统整体进化和发展水平。
通用设施技术,包括 5G 通信网络,云边协同计算,以及芯片、传感器和 IoT 等软硬件技术设施。高拟真的3D 数字人模型在数据传输方面对网络带宽和稳定性有较高要求。基于 5G 网络的高速率传输,结合云边协同计算,能够实现数字人模型的高精度、实时渲染效果;传感器用于数字人原始数据及用户数据的采集;芯片用于传感器数据预处理和数字人模型渲染、AI 计算等。通用设施技术为数字人系统的创建和落地打好数字化基础。
传统 CG 制作,主要基于专业 CG 软件进行相应的建模、动画制作和渲染等。专业的建模软件,能够对数字人的人体、衣物、配饰等进行三维建模,例如 Maya,3Dmax,Zbrush 等都是 3D 建模的主流软件;在建模的基础之上,经过骨骼搭建及绑定,以及蒙皮、BS 等一系列的准备工作后,动画师再根据角色需求进行动画制作,让数字人“动”起来。整个过程漫长且复杂,除了要反复检查活动的皮肤与骨骼外,还需要删除不必要(多余)的骨骼,以及解决各种穿模问题;渲染引擎,能够对灯光、毛发、布料、纹理等进行细节渲染,达到以假乱真的视觉效果呈现。主流引擎有 Unity、Unreal Engine 等。
传统 CG 技术脱胎于游戏行业,可以做出从外形、表情到动作 1:1 还原真人的影视级效果,但主要依赖于人工制作,成本高、周期长,且制作门槛对开发者专业要求比较高,掣肘数字人向其他非游戏领域规模化推广。
人工智能技术,主要包括计算机视觉和语音语义理解两大部分相关技术族。其中,计算机视觉又分成视觉理解分析技术和视觉内容生成技术;而语音语义理解则包含语音识别(ASR)、语音合成 (TTS)、语音动画合成(STA)、自然语言理解(NLP)等。一方面,与传统 CG 技术结合,可以优化数字人生产流程,提高生产效率;另一方面,人工智能技术的集成运用能够有助数字人多模态交互和深度学习能力的提升,增强数字人物角色的表现力、理解力和营业力,向更高等级数字人持续演进。