我们离“数字人自由”还有多远？

早在2007年，日本公司Crypton Future Media推出的虚拟声优“初音未来”，便将虚拟人推向大众视野。遗憾的是，往后数年，数字人并没有在真正意义上迎来爆发。

但2021年以后，基于AI技术深度开发的AYAYI、度晓晓等应用场景更广泛的数字人的出现，展现了更自然逼真的体验，也向“真实”迈进了一大步。

在写作、手语翻译、直播等领域，数字人开始发挥作用。AI数字人挑战高考作文，得分排总考生的前25%；数字人主播小C，已连续两年报道两会并采访人大代表；AI手语主播，在今年冬奥会期间为数千万听障用户提供直播及赛事的手语服务；百度数字人希加加，甚至成为麦当劳的首位虚拟代言人。

图/希加加抖音账号、央视网

虚拟数字人正在快速走向大众，经历着大量的制作生成、不同场景的应用，展现出一幅“人”与人共生的未来图景。

2022年，这场有关“造人”的畅想、实验仍在进行。业内普遍认为，以洛天依为代表的“形象+语音合成”的数字人，为1.0阶段。2.0阶段，则是依靠“2D/3D模型+实时动作捕捉+声优配音”模式。

而如今进入的3.0阶段，将考验企业的AIGC（人工智能自动生成内容）能力。算法、程序是数字人的基因，但通过AI，它们能在面部表情、形体表达、语音表述上变得更加“真实”、“个性”。

近期，沙利文发布的《2022年中国数字人市场观测报告》（下称报告）显示，按综合竞争实力量化评估，小冰、百度、商汤三家位列第一梯队。从硬软件、AI能力平台到各产业的应用，各大厂商也开始试图打通数字与现实的入口。

但目前为止，企业以及个人还无法获得“数字人自由”。虚拟数字人距离真正意义上的爆发，还有一段路要走。

大多数字人仅能进行简单的决策，而无法达到完全智能化交互。同时，数字人的生产效率问题，导致难以满足企业的高频需求，数字人制造成本较高。

打造有“灵魂”的数字人，能听、能说、能理解、能互动，是企业、用户的诉求，但技术方面依然面临高难度挑战。

数字人为什么被需要？

数字人浪潮的兴起、爆发，一直是伴随需求而生。

千禧年后，CG合成的“初音未来”让虚拟偶像概念破土而出，愿意买单、参与创作的年轻人，制造了第一场围绕虚拟偶像的“吸金效应”。

回到当下，在社交媒体上，虚拟美妆主播、虚拟换装达人、虚拟演员等一夜爆红的案例数不胜数。Z世代的新消费趋势，驱动着数字人进入更多产业链条。

提及数字人，大多年轻人的第一反应也许是主打颜值的“演艺型”数字人。一位90后女生小蕾提到，她最早关注到虚拟人是在小红书上，关注时尚博主AYAYI后，她隔几天就会点进她的账号浏览最新的发帖内容，后来才发现这是虚拟人。但目前，AYAYI小红书的笔记点赞数已经从十万+骤降至几十，纯演艺型数字人如何打破“虚火”、“过气”的命运，也是各大数字人厂商面临的难题。

另一位90后男生周凡也提到，从小他就混二次元圈，从动画、游戏中的二次元人群到虚拟偶像，无论是颜值还是人设，都更能让他产生兴趣。真实的明星他丝毫不关心，却很愿意为“虚拟人老婆”花钱买单。

图/小红书

主打颜值的演艺型数字人，常被塑造成网红并进行品牌代言活动。比如希加加便是一个演艺型数字人，在多个社交平台运营着个人IP账号，一边与蜘蛛侠、三体等超级IP合作，打造人气，一边与品牌在年轻化营销方面进行合作，此前希加加便成为麦当劳的首位虚拟推荐官，还与Qee熊、FE赛车合作画作并发布售卖。

可以看出，数字人扮演着为品牌开辟全新营销场景、与未来消费主力军沟通的角色。

但市场对数字人的期待不仅仅停留在“颜值”上，人们希望数字人承担的角色从演艺继续向服务型扩展，撑起更大的市场需求。

在过往提到人“人”共存争议时，数字人替代人类的问题总被提及，但无论是前端的开发者还是投身其中的科技公司都一再强调，数字人的服务属性。百度智能云AI人机交互实验室负责人李士岩便曾提到，做数字人的初衷，并非为了替代人，而是为了“服务人和陪伴人”。

如何服务？取代部分基础性工作、提升效能，是当下能看到的答案。数字员工、智能客服已经被广泛应用到很多企业中，这帮助了企业降本增效、提升客户体验。

京东的数字人出现在618，在电商、社交、媒体等领域上岗就业；在直播带货领域，网易伏羲的24小时AI虚拟主播，可以填补真人主播无法出镜的空白时间；在新闻报道方面，度晓晓与《工人日报》合作，在两会期间应用“AI记者”播报、采访。

百度数字人度晓晓则属于典型的“服务型选手”。2022年百度世界大会即将在7月21日举行，在其预沟通会上也提到，百度智能云专门打造了一个数字人平台“曦灵”，基于此形成了一个“AI数字人家族”，包括虚拟偶像、数字人主播、数字人员工等，都在为企业品牌提供服务。

而今年的大会中，度晓晓还将迎接一个难度系数翻倍的新挑战。此前，在写作方面，度晓晓参与作答全国议论文，拿下48分高分；作画方面，其具备领先的跨模态理解和生成能力，可以根据个性化需求自动生成油画、水彩画、中国画等多种风格的图像，还能实现“看图说话”的效果；度晓晓甚至还能创作歌曲方面，其与龚俊数字人联合演唱的歌曲，从作词到编曲均由AI“操刀”。报告也提到，服务型数字人是百度的优势所在，产品类型丰富，从最早的企业服务场景已经延伸到营销、办公等领域。

这一切也让人们展望数字人在更多领域被全面唤醒。

实现“数字人自由”的技术难题

虚拟数字人呈现的爆发态势，是过去数年制作水平、软硬件技术等各方面的跨越式升级在催动。

尽管虚拟数字人不再停留在“纸片人”的阶段，向智能化、精细化、多样化方向发展，但还没有到达谈论“普及”、甚至大规模“复制”的阶段。

由此，在谈论虚拟数字人“服务和陪伴人”这件事之前，似乎需要先解答“数字人自由”的问题：数字人大规模普及，依然面临着技术发展的阻碍。

经历了长期的发展，如今到了数字人产业的3.0阶段，通过掌握语义智能解析(NLP)和语音在线合成(TTS)等AI技术，数字人将变得更加“聪明”。

AIGC将进一步在数字人领域渗透，将颠覆现有的内容生产模式，AI将成为打造数字人的基础硬实力。

AIGC的应用，说到底还是依赖于大模型等底层技术的创新。2022年百度数字大会的预沟通会也提到，希加加、度晓晓AI作画、AI写作文、AI作曲等，都是AIGC在内容生产提效的体验，而这背后，是百度飞桨及大模型的支持。

图/文心大模型官网

AIGC如何让数字人成为一个更真实的“人”，首先要从“真实”的要素说起。主要可分为：身体的静动态（躯体、面部、口型），感知能力（看、听、说），认知能力（情感识别、知识理解），它们都被期待着摆脱“纸片人”的僵硬。

目前而言，部分数字人仅仅拥有单一能力，且单一能力也仅仅是“半吊子”水平。

以涉及听和说的“可交互”能力举例，被称作“人工智障”的数字人，无法完成多轮对话，更达不到“语言理解力”。当你说“不喜欢”时，它可能会回答，“我不明白你在说什么。”

但与度晓晓等更“真实”的数字人对话时，你会发现，跟她说你想看电影，她会给你推荐影片；你提到想喝咖啡，她就会跳转到咖啡外卖的小程序去下单。显然，度晓晓在对话中不仅能与用户闲聊，同时能识别用户说话的意图，来提供给用户搜索、推荐等，更好地为用户服务。

那么，这样流畅的对话是如何实现的？这需要依赖数个步骤：首先，预训练对话大模型，使数字人学习通用的对话生成能力。再进一步学习不同画像信息下的对话生成能力，使模型的答复更具“定制化”“一致性”。最后，将海量的问答知识内化到模型参数中，使得模型具备准确的问答能力。百度文心PLATO大模型，便具备接近真人水平的多轮对话能力。

简单来说，不断迭代大模型的能力，提高各项AI能力，而基于大模型生成的数字人也将拥有更高的“智商”“情商”。

不过，提高单一能力并非终点，数字人需要走向全能。随着虚拟人扮演的角色逐渐复杂，比如协助国家队训练的虚拟教练观君、负责万科内部财务催收的虚拟员工崔筱盼、百度的AI手语数字人等，内容生成、感知表达等都在逐步进化。

比如在直播场景中，百度的AI手语数字人，需要“听到”主播的话，并“理解”字句，再实时转换成手语“动作”，展示给观众看。显然，相比其他数字人，它进行着更高强度的“大脑”运转，完成着更复杂的工作。

这便要考验数字人背后的大模型的跨模态能力。从文字、声音到图像模态，AI需要让数字人做到“听说读写”样样俱全。AI驱动下，数字人将不断成长，拥有更多可能性。

技术越来越强，大量复制却依然艰难？

解决“数字人自由”，技术难题之外，生产效率问题也是讨论的主要问题——如何低成本且快速地生成数字人，去满足高频的需求。

当下，数字人还很难快速低成本生成。当企业希望借助数字人营销、服务用户时，面临着数字人的投入成本高、制作周期长、人设运营难、技术难度高等难题。

提供解决方案的服务平台，被认为是“数字人自由”的加速器。如百度、腾讯、网易伏羲等，都是平台型技术服务商。

通过服务平台，企业品牌借助批量生成功能，定制与业务方面吻合的数字人，同时，可以通过平台进行内容生产和运营，比如直播、制作短视频等，或是对数字人的“人设”进行包装。

过去两年，缩短生产周期——企业的这一核心需求，在不断被满足。

比如根据不同需求所需时间区分：在百度智能云曦灵平台上，较为简单的2D数字人像，以前需要两三个月时间做出来的3D数字人，现在可以压缩到小时级；困难度最高、成本最高的特异型数字人（有具体的参照形象要求），也可在10到30天内生成。

另外，不同类型的数字人的制作成本都很高昂，企业品牌既要避免数字人同质化竞争，又要低成本，实属艰难。

越来越多的企业也在通过AI技术释放生产力、降低成本。比如在人像制作上，扫描真人、捏脸是常规手段，但生产周期长至3个月，成本高至上百万。而各个平台也在试图寻找降低成本的方法。如百度的技术团队，通过积累人像数据，利用数据训练AI生成模型，最终通过AI模型快速打造各种需求的人像，大幅降低成本。

百度让数字人制作成本十倍、百倍地下降，使数字人生产周期，从动辄几个月，缩短到小时级别。2022年百度世界大会的预沟通会提到这一数据。

可以预见，未来数年，更多企业会加入应用数字人的队伍，数字人的商业价值将在更多领域发挥，数字人帮助品牌代言、与用户沟通互动等，都会变得普遍起来，而不止企业，甚至个人也能拥有属于自己的数字人。

作为国内AI领先企业，百度多年积累的AI能力，成为它在数字人产业实力领先的基础。此前互联网周刊发布的《2021虚拟数字人企业排名TOP50》榜单中，百度因为语音、视觉等AI能力的积累，在数字人综合实力方面排名第一。百度等服务平台的下场也助推了数字人产业的发展。

数字人变得更加“真实”，服务于更多产业，得益于百度等厂商对AI能力的投入、培育，并将解决方案提供给更多有需求的企业，将数字人产业从0推向1，再走向虚实融生。

文章来源：一刻商业，如有侵权，请联系删除。

关于Wolfram计算坊

所有版块

2022世界元宇宙科技展

Web3.0

XR交互

云计算

元宇宙最新动态

元宇宙科技

联系我们

我们离“数字人自由”还有多远？

Tags:

发表评论取消回复

关于Wolfram计算坊

联系我们

Categories

2022世界元宇宙科技展

DeFi去中心化金融

Web3.0

XR交互

云计算

元宇宙最新动态

元宇宙科技

区块链技术

数字孪生

深度研究/报告

热门视频

物联网/云计算

电子游戏

虚拟现实

边缘计算

Recent Posts

热点速递 | 清华大学成立元宇宙文化实验室

2022元宇宙科技TOP榜单 – 数字孪生领域案例申报

元宇宙最新全面技术综述

5G足以推动元宇宙的发展吗？

第一届Xverse世界元宇宙科技展正式启动！

开放报名 | 元宇宙科技应用发展研讨会：数字孪生与虚拟现实应用

关于Wolfram计算坊

所有版块

2022世界元宇宙科技展

Web3.0

XR交互

云计算

元宇宙最新动态

元宇宙科技

联系我们

我们离“数字人自由”还有多远？

Tags:

Share This Post:

发表评论 取消回复

最近发布

2022世界元宇宙科技展

DeFi去中心化金融

Web3.0

XR交互

云计算

元宇宙最新动态

元宇宙科技

区块链技术

数字孪生

深度研究/报告

热门视频

物联网/云计算

电子游戏

虚拟现实

边缘计算

发表评论取消回复