
大家认识数字人,其实数字人的创新已经走过了十多年的历史,但被广泛接受实际上是元宇宙2021年兴起以后,数字人与元宇宙一起伴生腾飞起来的。到2022年、2023年我们发现,元宇宙经过一个高潮后就进入了调整期,而数字人由于人工智能的加持,则较快地进入了成熟成长期。
这中间有很多原因。为什么元宇宙深度调整,而数字人能够持续发展?一个很重要的原因是:元宇宙第一波调整中,打造完整数字世界的成本很高。2021年元宇宙兴起时,中国互联网协会经过调研提出,元宇宙发展可以从较小切口切入,比如数字人。这样打造元宇宙世界的成本可以大幅缩小——同样颗粒度下可能是千分之一、万分之一的成本就能进入这个世界。
我们知道元宇宙最核心的(田老说过)是要打造”宁境”,不是再造现实园林。再造现实园林,现有影视技术就足够了。因此我们提出:元宇宙创新可以从小切口切入,可能更容易推动。这个想法也来自合作伙伴联通在线,他们很早就开始尝试——比如汕头民国街项目,用成熟影视设备完成环境采集,再打造数字人进入该环境,很快达到了传神效果。
基于此,2022年底中国互联网协会在深圳年会上首次推出数字人精品秀。这个创新成为当年元宇宙最火的亮点,实际上在我们的展览会上,数字人成了最吸引人的风景线。此后中国互联网协会基于分析持续跟踪这一领域。

2022年我们就开始精品秀活动。到了2023年7月份,我们联合在座的很多企业一起发起了中国数字人领航计划,这是当年7月我们发布的线上计划。我们提出了通过四梁八柱的打造来系统推进数字人应用,这个计划得到了业界的广泛响应。
在大家的共同努力下,2024年9月,我们在对面会场召开了首届中国数字人大会,各界嘉宾都来出席致辞并祝贺会议。这次会议上我们发布了《中国数字人发展报告2024》和《100个数字人应用场景》。在会议推动下,数字人在业界掀起高潮。到年底时,股市里数字人股票不仅追平了已有多

今年春节以后出现一个新情况,大家都注意到了,我们春节晚会上宇树机器人去扭了一把秧歌。扭秧歌以后就带来什么情况呢?就是大家对具身数字人有了更多的期盼,所以各地形成了一个具身数字人的高潮。那么在这种背景下,大家就在思考这个问题:具身数字人如果很快成熟起来,我们基于大屏的数字人,它的发展前景如何?会朝什么方向发展?最近很多企业都在提出这个问题。
在这种情况下,我们就在今年一季度展开了调研,联合业界的头部企业也做过了多次研讨。经过研讨,我们得出了一个观点:端侧创新将呈现”应用一代、研发一代”的梯次配套推进格局。而当前最成熟的还是基于荧屏的数字人,这就是刚才主持人刘刚总讲到的观点。
接下来,我将从5个方面和大家一起分享我们的观点。

探讨第一点:在过去的一年里,数字人制作产业实现了快速发展。

刚才很多从吕院长和大家做了很多分析。在人工智能的加持下,我们数字人的制作技术在过去一年发生了飞速变化,主要表现在以下三个方面:
第一个就是基础技术快速迭代,生产能力不断提升,经营模式不断丰富。
(你们拿笔记本翻就行,我们时间关系不能等了)最后一页。

最后一页啊。好了吗?

好了。这是翻页。对,我知道的,我们现在。

好。第一个就是技术,刚才大家都讲了,我就不重复了。我讲一个生动的案例。今年1月我们首先到央视国际去调研,我走进去以后,这个东西吸引了我。过去我们做个数字人,精致一点的要一个月,快一点的也得一天时间。2024年我们开数字人大会的时候,我做一个数字人,折腾了半天,念了好多报纸,才把我的形象和语言复刻下来。但我走进央视以后,在这个场景下,对着手机一照,建模就完成了,马上就像刚才大家演示的,我的每一个动作,数字人都能代表我表现出来。这是一个很大的飞跃。
过去我们知道数字人肯定比现实影视能实现很多过去做不到的东西,比如孙悟空、漫画角色,还有中央电视台主持人小妮妮可以翻着跟头来主持人工智能创新大会,这在现实中是不可能做到的。这就是数字人的巨大魅力。但过去制作成本很高,100多年的影视在光学技术上已经很成熟,产业链很成熟,成本就很低。而数字人制作成本很高,我们去数字人展览时,我说这个动作还有点问题,对方赶快解释这是通过建模实现的,都是把人分隔模块然后建模来实证实现的,所以很难。
过去我们讲元宇宙也好,数字人也好,制作成本很高,最主要的是建模路径比直接的光学要复杂。但现在由于软件技术的发展,已经改变了,站在里边分分钟就把我的定格完成了。今天大家一分钟做事的人被反复提出话题。今年夏天我有个体会,我写了一本书被选上国家中宣部重点图书,要作为高校校外辅导读物,他们约我去拍数字人版。我说千万别来我家,因为书房就9平米,摆不开设备。约了别的地方,我发现什么也没有,就是个手机加笔记本电脑,不到2分钟就完成了我的形象和语音复刻。我说语音复刻没有提示器,书写完两年多记不得内容了,讲的是否符合要求?他说不用,就说”12345677654321”这几句,一下子就做到了。这个软件技术已经根本改变了,改变的结果是什么。
成本变化了。所以我们会讲,数字人不仅可以做到过去影视素质人做不到的东西,而且现在做的成本已经差不多了,以后还会低于它。今天大家一再讲,一分钟就可以做到。过去我们做个动作,要建造一个物理网的环境,每个人身上带上好多感应器,然后在空间运动。要用来计算我在这个网格中间的哪个位置,复刻我的动作。现在不需要了,现在你做什么动作,随心所欲,他就做什么动作。
去年年底,小米、清华在海淀区做了一个科研辅助的项目,让我去当评委。我看了就眼前一亮,不需要那些设备了。就这样子,直接拍下来,它就自动完成了数字转化的工作。这就是他的魅力所在。
过去一年,我们觉得数字人发展一个最主要的基础技术,在人工智能加持上快速迭代。第二个变化呢?

是生产方式变化了。大流水线,我们叫制服。过去我们很快,今年他们已经是5分钟就能完成。

今天一讲都是一分钟完成了。刚刚我到无锡去,他们在生产流水线上可以批量地制造数字人了。生产方式发生了极大的变化,营销模式也变化了。你看我们。

联通在线已经能够在平台上推出从10元到10万元不等的需求,随心所欲分拣游人来提供这样的创造。今年5月我去山东聊城参加会议并做培训,在大街上偶然发现了一家数字人智播体验店。我进去询问这家店是做什么的,他们告诉我,如果你想搞直播但受限于人力,不用自己操作,他们这里全都有。我问他们经营情况如何,对方表示开张仅3个月就有这么多单位来合作。可见,数字人的应用和商业环境已经成熟。
之前我们提到快手、京东等平台,起初大家担心数字人会影响流量和质量。但现在,数字人已经成为主动引流的工具,走上了规范化发展的道路。在河北大名县(一个刚刚脱贫的县),我看到他们的直播园区里有一家百度合作伙伴的企业。县政府提供场地和基础条件,这家企业为老百姓提供租赁模式服务——老百姓只需决定卖什么商品,剩下的设备、网络、平台入驻、引流、推流等全由企业包办,仅收取每单业务5%的分成。9月份我去调研时,这家名为赫达科技的单位已服务90多家客户;最近统计显示,两个月内客户数已突破200家。
数字人直播的结合已变得非常便捷,商业模式的成熟标志着它进入了快速发展期。就像过去PC互联网和移动互联网的发展规律一样,当商业模式成熟时,技术迭代也会加速。这是数字人制作产业的重要突破。

好。大家反复再说一个。

人工智能的加持,不仅是对于人工智能,数字人的制作还在于什么呢?注意了A大脑,就是我们的智能体的引入跟数字人的一体化。当然是在模型的影响下制作,这就解决了应用中间的更多问题。所以我们不仅是功能向老,其实脑力思考也进入了这个阶段。这也是过去一年数字人发展中间一个值得我们关注的事情。这个服务器我还是啊。

哎。好, 过去。

1月19号,我们中国智能机产业发生了一件很大的事,就是DeepSeek横空出世。大家都知道DeepSeek用比较低的成本实现了更高水平的推理,这个带来了很大作用。其实它另一个重大的意义就是在发布的那一天就实现了开源。
什么叫开源?就是以前我们叫百模大战,其实大家都像在格子笼里分别做一样的创新,大家都在做技术模型的创新。而DeepSeek开源了。开源啥意思?就是更多的应用主体不需要在基础模型里参加百模大战的红海之争了,你可以踩在巨人的肩膀上,通过蒸馏系数、微调等方法,能够生产出针对特殊应用场景的应用模型来。
而这个模型到了3月份的时候,以智能体为代表的创新又出现了。因为这个模型实际上是把基础模型赋予了思考能力。智能体出现是什么?把这个思考能力解决了最后一公里,可以通向应用的通道把它打通了。
那么我们数字人近水楼台先得月,因为我们数字人的最底层技术就是数字技术,跟人工智能有着天然的高度匹配的环境。所以第一代的产品就是一体化的数字人智能体。这个变化是具有革命性意义的。

在豪华汽车赛道,因为有了这个变化,实现了大脑加手脚,拓展了智能体的应用空间。基于这样的发展,数字人就迈入了一个新的时代。

这个特别值得我们关注。我们第二章重点对这个分析,因为这两方面的重大变化实际上带来了数字人功能。

应用的变化。这个变化是什么?我们跟中船一起讨论,得出一个结论:数字人应用进入了运营时代。我们以前讲的数字人应用大概分三大类:数媒数字人、服务数字人和行业数字人。

在过去一年,媒介数字人发展最快。但它的最主要功能就是广播式地把你输入的TS文件念出来,这是数字人。你叫它去互动,过去就做不到。服务数字人最典型的是在机场问路:“往左转,千票往右转,国际展品往哪里去转?”这些都是弱的,在行业应用就更少了。所以我们去年开会基本是这个情况。
那么为什么它只能广播不能互动?为什么它只能简单指个路,不能提供更多互动交流服务?一个重要原因是:它原来的数字人模型没有智能体支撑,实际上后面是个小程序,所以只能指路。现在问复杂的问题,它就不知道,因为对话能力没有智能体的支撑,所以做不到。
但是今年以来,随着数字人的发展,这些应用都发生了变化。

当然,首先是我们已有的应用变得更加成熟了。今年过春节,杭州新闻联播所有的主播都放假了,就两个数字人从年三十到初八值班。结果怎么样?我一上班,《人民日报》海外版就来找我了。他们统计出来了——零差错,都做到了。所有人都去放长假了,零差错。问我怎么看?我说这在我们去年数字人大会就做出了预测,它是必然的。
今年3月份,我们的政府工作报告刚发布,就有了数字人解读政策。这个数字人已经不是我们做个样品、简单去用了,而是用到了这么高的层次。所以这个媒介数字人应该说已经具备了顶岗值班的条件。我说以前如果我们是样板间,现在可以是商品房,具备了可用性。
好,我们再引申一下。刚才讲了电商,以前是我们排斥的,现在可以按规范把它引入进来了。

这个在直播也是具有革命性意义的。同时,在我们的旅游、文旅领域中间,刚才大家介绍了,有更多的应用是我们影视做不到的。

通过这个,比如我们的《黑神话:悟空》,加上旅游,把山西的旅游带动起来。现在一到小长假都订不了房子,订不了车。像这种飞天,原来在墙上看着很爽的那些动作都表现不出来,那么数字人都把它表现出来了,发挥了很大的场景,这个叫媒介类数字人。同时服务类的数字人也已经出现了。

模型的加持,有了智能体的加持,数字人的功能就开始告别小程序的时代,进入了大模型应用模型。这是我们的智能体推动下的一个新的应用时代。在这个时代里,我们有了助理医师、助理教师,刚才大家都提到了助理律师,都有了很好的应用空间。
因为过去也可以广播,比如律师把法典给你念一遍,但没有人听。现在可以根据你提出的法律问题,针对性地回答你。医疗方面,如果把医学教科书给你念一遍,也没人听,但针对你提出的症状,我能回答你,这就是革命性的意义,开辟了很广阔的空间。
同样在企业里边,我们的企业客服也迎来了新的变革。

过去我们客服里边,只是打开服务最好的海尔。告诉你请按一、请按二,按语音引导到了最后答不上来,让你改找真人的台,结果盲线接不上。现在不需要了,现在是针对你提出的问题,贯通流程来回答你。这种革命性的转变会带来一个巨大的发展空间。

那么当然了,数字模发展有好的一面,也还发展中面临一些问题,需要我们的一个

技术趋同呼唤大科研,我们现在大家干一样的事儿。

但是我们的研究依然存在很多重复。无非是原来在基础层面的重复,现在在应用层面还是有重复。这就需要我们集中收敛,提高研究质量。因为研究分散,所以我们的产业还是以小生产为主。我就拿了一张大要镜的。

我们这里一高炉、那里高炉,讲过去一报高炉群多少个,实际上产值产量很低,没有意义。因为生产方式落后,我们用的工具就是传统的,虽然有传送带可以送料、控制得很好。

没有我们都是一铲一铲往里加煤。因为一铲一铲加煤,效率就低。现在我们要通过先进的软件解决这个问题,通过工具革命。但生产规模太小就用不起高质量的工具,这也是我们的问题。第三个问题是我们的销售已经进入了。

数字人已经进入运营时代了,但我们现在的经营模式还基本停留在创新初期。初期在干什么?因为我们都在摸索。IT技术的特点就是创新成本很高,但复制成本很低,这就是IT发展的秘诀。过去因为成本很高,所以我们的商业模式基本上叫做”半年不开张,开张管半年,甚至管一年”。因为没有单子,要谈一个就得把一年的成本都叠加上去。但到了运营时代,这个情况变化了。如果我们依然用这种模式,就不适应新的市场变化了。就像生产力变了,生产方式也要变。刚才刘总讲的生产力变了,我们的生产方式、管理都要变化,这是我一个切身感受。
去年这个月,我们在希尔顿香格里拉举行的产业发展年会上,我参加了一场数字人加新闻宣传的会议,做主题报告。做完后进行了圆桌讨论,那天联通在线的韩总也做了发言。韩总讲到我们的产品从10块钱到10万元都可以满足需求。这位韩总是什么人?他是国家民委最懂信息化的人,信息化处处长。他听完介绍后说:“我发愁了。本来我想让我们少数民族的县,甚至每个乡都做一个数字人,走进去让数字人代言宣传不是很好吗?但你给我一个10元、10万元的选择,我看不懂了,到底该做10万元的还是10元的?不知道。如果我签了10万,回去发现别人签了10元,尽管质量服务不一样,但审计可能还要找我谈话。”他提出:我们已经进入运营时代,需要的不是创新初期的商业模式,而是呼唤一个更公平交易、更开放的环境。

怎么去打造它呢?那么我们下一步在这个报告里提出,要从四个方面去推进工作。

一是要继续聚力提高数字人的智能化功能。 二是要用标准化提高生产的集约化。我们现在把很多环节集约起来,使生产方式能共享的都共享。 三是我们现在要组织开展数字人的分等分级。那位国家民委的处长提出这个问题时,我们可以明确告诉他:10万和10块钱买的不是一样的东西。10万买的是这种性能功能,10块钱买的是另一种内容。如果我们能准确描述分等分级,就能货畅其流,把生意做开。
当然,在发展过程中,我们围绕这个议题已经开了好几次座谈会,目前仍在研究中。

那么我们讲下一步呢,要以标准引领集约化。还有个很重要的任务,就是要组织开展数字人分等分级的标准研究。

很高兴这项倡议得到了业界很多头部企业的积极参与。11月21日,我们在协会与百度、联通在线、小哆以及中关村智用研究院的专家们共同形成了数字人分等分级标准的初稿。这是当时研讨会的情景。
明天上午8点半,我们将在百望山会议室召开第一次全体工作会议。在此向业界宣布:希望有志于参与这项标准制定的单位准时参会。会议结束后,请到纪昌老师处领取评审投票权——每位参与单位都将获得一票权利,对标准中可能未考虑到的因素充分发表意见。
明天会议将重点讨论: 1. 分等分级标准要解决的核心问题 2. 当前指标体系设置的几个关键维度
请各单位代表准时参会,共同推进数字人生态建设。

第四点,我们对于数字人一定要坚定信心,不要哪里热就往哪里跑。我们讲现在具身数字人很热,但基于大屏的虚拟数字人更成熟。如果用两个维度来描述现状:纵轴是声量,横轴是应用成熟度,那么具身数字人正处于这个阶段,而基于大屏的虚拟数字人虽然声量没有前者高,但在应用上快一个周期。
现阶段大量人工智能应用,尤其是基于语言大模型的应用,匹配度最高的就是虚拟数字人。正如王兴兴所说,真正匹配语速的数字人模型还没造出来。目前从图灵测试分析来看,我们所有人工智能还是基于对话的应用,而基于对话应用的最佳媒介就是数字人。我们对此要充满信心。

当然了,将来在人工智能时代,智能体在终端会呈现出一种多元化变化的格局。这既包括多形态的终端,如PC、手机、平板等,而最高水平代表是数字人。将来也会有智能驾驶的汽车、无人机和智能机械,其最高水平同样是数字人。
从成熟度来看,就相应的制作技术而言,多形态终端中屏幕显示是最成熟的,每个星期就可以更换一个版面。一个新的模型发布后,下载后第二天就能使用。数字人比屏幕显示复杂一点,但现在也比较成熟。而真正的实体机器人现在还处在研发阶段,王兴星说还需要3到5年才能投入实际应用,这是一个最基本的判断。
基于此,我们认为当前应该从这个角度出发。同时,在这个领域中,我们优先应用并积累大量数据,可以推进模型的创新。数据的积累将来也会反哺具身数字人的发展,形成这样一个我们称之为”使用以带”的格局。什么是”使用以带”?就是现在数字人、自动驾驶、无人机等,因为它们还需要空域管理和交通管理,目前处在适用阶段,等待法规的成熟。
以后,具身数字人会成长起来。我们希望它走一条与数字人相同甚至更漂亮的发展道路,使我们国家的产业优势能够得到充分释放。所以现在我们对这个市场的估计,实际上还是遵循图灵和约瑟夫的判断,目前从模型来看…

基于对话的这个机器模型还在等待解决。数字人目前还处在机械机电创新的阶段,马达轰轰作响。要想达到我们刚才讲的人情味和个性化,路还比较远。我们现在做数字人的脸最多也就是形似,但绝对是皮笑肉不笑。而我们的数字人已经可以呈现那么多生动的内容了,这就是现实。这就是我们在推进创新时必须坚持两手抓,这是我们跟爱民一起做这个数据。



