2024年5月22日
北京朝阳区中电发展大厦
元宇宙科技 虚拟现实

我们离“数字人自由”还有多远?

早在2007年,日本公司Crypton Future Media推出的虚拟声优“初音未来”,便将虚拟人推向大众视野。遗憾的是,往后数年,数字人并没有在真正意义上迎来爆发。

但2021年以后,基于AI技术深度开发的AYAYI、度晓晓等应用场景更广泛的数字人的出现,展现了更自然逼真的体验,也向“真实”迈进了一大步。

在写作、手语翻译、直播等领域,数字人开始发挥作用。AI数字人挑战高考作文,得分排总考生的前25%;数字人主播小C,已连续两年报道两会并采访人大代表;AI手语主播,在今年冬奥会期间为数千万听障用户提供直播及赛事的手语服务;百度数字人希加加,甚至成为麦当劳的首位虚拟代言人。

图/希加加抖音账号、央视网

虚拟数字人正在快速走向大众,经历着大量的制作生成、不同场景的应用,展现出一幅“人”与人共生的未来图景。

2022年,这场有关“造人”的畅想、实验仍在进行。业内普遍认为,以洛天依为代表的“形象+语音合成”的数字人,为1.0阶段。2.0阶段,则是依靠“2D/3D模型+实时动作捕捉+声优配音”模式。

而如今进入的3.0阶段,将考验企业的AIGC(人工智能自动生成内容)能力。算法、程序是数字人的基因,但通过AI,它们能在面部表情、形体表达、语音表述上变得更加“真实”、“个性”。

近期,沙利文发布的《2022年中国数字人市场观测报告》(下称报告)显示,按综合竞争实力量化评估,小冰、百度、商汤三家位列第一梯队。从硬软件、AI能力平台到各产业的应用,各大厂商也开始试图打通数字与现实的入口。

但目前为止,企业以及个人还无法获得“数字人自由”。虚拟数字人距离真正意义上的爆发,还有一段路要走。

大多数字人仅能进行简单的决策,而无法达到完全智能化交互。同时,数字人的生产效率问题,导致难以满足企业的高频需求,数字人制造成本较高。

打造有“灵魂”的数字人,能听、能说、能理解、能互动,是企业、用户的诉求,但技术方面依然面临高难度挑战。

数字人为什么被需要?

数字人浪潮的兴起、爆发,一直是伴随需求而生。

千禧年后,CG合成的“初音未来”让虚拟偶像概念破土而出,愿意买单、参与创作的年轻人,制造了第一场围绕虚拟偶像的“吸金效应”。

回到当下,在社交媒体上,虚拟美妆主播、虚拟换装达人、虚拟演员等一夜爆红的案例数不胜数。Z世代的新消费趋势,驱动着数字人进入更多产业链条。

提及数字人,大多年轻人的第一反应也许是主打颜值的“演艺型”数字人。一位90后女生小蕾提到,她最早关注到虚拟人是在小红书上,关注时尚博主AYAYI后,她隔几天就会点进她的账号浏览最新的发帖内容,后来才发现这是虚拟人。但目前,AYAYI小红书的笔记点赞数已经从十万+骤降至几十,纯演艺型数字人如何打破“虚火”、“过气”的命运,也是各大数字人厂商面临的难题。

另一位90后男生周凡也提到,从小他就混二次元圈,从动画、游戏中的二次元人群到虚拟偶像,无论是颜值还是人设,都更能让他产生兴趣。真实的明星他丝毫不关心,却很愿意为“虚拟人老婆”花钱买单。

图/小红书

主打颜值的演艺型数字人,常被塑造成网红并进行品牌代言活动。比如希加加便是一个演艺型数字人,在多个社交平台运营着个人IP账号,一边与蜘蛛侠、三体等超级IP合作,打造人气,一边与品牌在年轻化营销方面进行合作,此前希加加便成为麦当劳的首位虚拟推荐官,还与Qee熊、FE赛车合作画作并发布售卖。

可以看出,数字人扮演着为品牌开辟全新营销场景、与未来消费主力军沟通的角色。

但市场对数字人的期待不仅仅停留在“颜值”上,人们希望数字人承担的角色从演艺继续向服务型扩展,撑起更大的市场需求。

在过往提到人“人”共存争议时,数字人替代人类的问题总被提及,但无论是前端的开发者还是投身其中的科技公司都一再强调,数字人的服务属性。百度智能云AI人机交互实验室负责人李士岩便曾提到,做数字人的初衷,并非为了替代人,而是为了“服务人和陪伴人”。

如何服务?取代部分基础性工作、提升效能,是当下能看到的答案。数字员工、智能客服已经被广泛应用到很多企业中,这帮助了企业降本增效、提升客户体验。

京东的数字人出现在618,在电商、社交、媒体等领域上岗就业;在直播带货领域,网易伏羲的24小时AI虚拟主播,可以填补真人主播无法出镜的空白时间;在新闻报道方面,度晓晓与《工人日报》合作,在两会期间应用“AI记者”播报、采访。

百度数字人度晓晓则属于典型的“服务型选手”。2022年百度世界大会即将在7月21日举行,在其预沟通会上也提到,百度智能云专门打造了一个数字人平台“曦灵”,基于此形成了一个“AI数字人家族”,包括虚拟偶像、数字人主播、数字人员工等,都在为企业品牌提供服务。

而今年的大会中,度晓晓还将迎接一个难度系数翻倍的新挑战。此前,在写作方面,度晓晓参与作答全国议论文,拿下48分高分;作画方面,其具备领先的跨模态理解和生成能力,可以根据个性化需求自动生成油画、水彩画、中国画等多种风格的图像,还能实现“看图说话”的效果;度晓晓甚至还能创作歌曲方面,其与龚俊数字人联合演唱的歌曲,从作词到编曲均由AI“操刀”。报告也提到,服务型数字人是百度的优势所在,产品类型丰富,从最早的企业服务场景已经延伸到营销、办公等领域。

这一切也让人们展望数字人在更多领域被全面唤醒。

实现“数字人自由”的技术难题 

虚拟数字人呈现的爆发态势,是过去数年制作水平、软硬件技术等各方面的跨越式升级在催动。

尽管虚拟数字人不再停留在“纸片人”的阶段,向智能化、精细化、多样化方向发展,但还没有到达谈论“普及”、甚至大规模“复制”的阶段。

由此,在谈论虚拟数字人“服务和陪伴人”这件事之前,似乎需要先解答“数字人自由”的问题:数字人大规模普及,依然面临着技术发展的阻碍。

经历了长期的发展,如今到了数字人产业的3.0阶段,通过掌握语义智能解析(NLP)和语音在线合成(TTS)等AI技术,数字人将变得更加“聪明”。

AIGC将进一步在数字人领域渗透,将颠覆现有的内容生产模式,AI将成为打造数字人的基础硬实力。

AIGC的应用,说到底还是依赖于大模型等底层技术的创新。2022年百度数字大会的预沟通会也提到,希加加、度晓晓AI作画、AI写作文、AI作曲等,都是AIGC在内容生产提效的体验,而这背后,是百度飞桨及大模型的支持。

图/文心大模型官网

AIGC如何让数字人成为一个更真实的“人”,首先要从“真实”的要素说起。主要可分为:身体的静动态(躯体、面部、口型),感知能力(看、听、说),认知能力(情感识别、知识理解),它们都被期待着摆脱“纸片人”的僵硬。

目前而言,部分数字人仅仅拥有单一能力,且单一能力也仅仅是“半吊子”水平。

以涉及听和说的“可交互”能力举例,被称作“人工智障”的数字人,无法完成多轮对话,更达不到“语言理解力”。当你说“不喜欢”时,它可能会回答,“我不明白你在说什么。”

但与度晓晓等更“真实”的数字人对话时,你会发现,跟她说你想看电影,她会给你推荐影片;你提到想喝咖啡,她就会跳转到咖啡外卖的小程序去下单。显然,度晓晓在对话中不仅能与用户闲聊,同时能识别用户说话的意图,来提供给用户搜索、推荐等,更好地为用户服务。

那么,这样流畅的对话是如何实现的?这需要依赖数个步骤:首先,预训练对话大模型,使数字人学习通用的对话生成能力。再进一步学习不同画像信息下的对话生成能力,使模型的答复更具“定制化”“一致性”。最后,将海量的问答知识内化到模型参数中,使得模型具备准确的问答能力。百度文心PLATO大模型,便具备接近真人水平的多轮对话能力。

简单来说,不断迭代大模型的能力,提高各项AI能力,而基于大模型生成的数字人也将拥有更高的“智商”“情商”。

不过,提高单一能力并非终点,数字人需要走向全能。随着虚拟人扮演的角色逐渐复杂,比如协助国家队训练的虚拟教练观君、负责万科内部财务催收的虚拟员工崔筱盼、百度的AI手语数字人等,内容生成、感知表达等都在逐步进化。

比如在直播场景中,百度的AI手语数字人,需要“听到”主播的话,并“理解”字句,再实时转换成手语“动作”,展示给观众看。显然,相比其他数字人,它进行着更高强度的“大脑”运转,完成着更复杂的工作。

这便要考验数字人背后的大模型的跨模态能力。从文字、声音到图像模态,AI需要让数字人做到“听说读写”样样俱全。AI驱动下,数字人将不断成长,拥有更多可能性。

技术越来越强,大量复制却依然艰难?

解决“数字人自由”,技术难题之外,生产效率问题也是讨论的主要问题——如何低成本且快速地生成数字人,去满足高频的需求。

当下,数字人还很难快速低成本生成。当企业希望借助数字人营销、服务用户时,面临着数字人的投入成本高、制作周期长、人设运营难、技术难度高等难题。

提供解决方案的服务平台,被认为是“数字人自由”的加速器。如百度、腾讯、网易伏羲等,都是平台型技术服务商。

通过服务平台,企业品牌借助批量生成功能,定制与业务方面吻合的数字人,同时,可以通过平台进行内容生产和运营,比如直播、制作短视频等,或是对数字人的“人设”进行包装。

过去两年,缩短生产周期——企业的这一核心需求,在不断被满足。

比如根据不同需求所需时间区分:在百度智能云曦灵平台上,较为简单的2D数字人像,以前需要两三个月时间做出来的3D数字人,现在可以压缩到小时级;困难度最高、成本最高的特异型数字人(有具体的参照形象要求),也可在10到30天内生成。

另外,不同类型的数字人的制作成本都很高昂,企业品牌既要避免数字人同质化竞争,又要低成本,实属艰难。

越来越多的企业也在通过AI技术释放生产力、降低成本。比如在人像制作上,扫描真人、捏脸是常规手段,但生产周期长至3个月,成本高至上百万。而各个平台也在试图寻找降低成本的方法。如百度的技术团队,通过积累人像数据,利用数据训练AI生成模型,最终通过AI模型快速打造各种需求的人像,大幅降低成本。

百度让数字人制作成本十倍、百倍地下降,使数字人生产周期,从动辄几个月,缩短到小时级别。2022年百度世界大会的预沟通会提到这一数据。

可以预见,未来数年,更多企业会加入应用数字人的队伍,数字人的商业价值将在更多领域发挥,数字人帮助品牌代言、与用户沟通互动等,都会变得普遍起来,而不止企业,甚至个人也能拥有属于自己的数字人。

作为国内AI领先企业,百度多年积累的AI能力,成为它在数字人产业实力领先的基础。此前互联网周刊发布的《2021虚拟数字人企业排名TOP50》榜单中,百度因为语音、视觉等AI能力的积累,在数字人综合实力方面排名第一。百度等服务平台的下场也助推了数字人产业的发展。

数字人变得更加“真实”,服务于更多产业,得益于百度等厂商对AI能力的投入、培育,并将解决方案提供给更多有需求的企业,将数字人产业从0推向1,再走向虚实融生。

文章来源:一刻商业,如有侵权,请联系删除。


发表评论

您的电子邮箱地址不会被公开。