相芯科技观察：AI虚拟主播简史

导读： AI虚拟主播又迎来了高光时刻。 2018年，搜狗和新华社联合推出的全球首个AI合成主播的诞生，掀开了AI+虚拟主播的神秘面纱，一时间，嗅到科技红利的市场各方开始蜂拥而上。2019央视网

AI虚拟主播又迎来了高光时刻。

2018年，搜狗和新华社联合推出的全球首个AI合成主播的诞生，掀开了“AI+虚拟主播”的神秘面纱，一时间，嗅到“科技红利”的市场各方开始蜂拥而上。2019央视网络春晚推出AI虚拟主持人团队；今年两会期间，新华社推出AI虚拟主播“新小萌”，人民日报推出AI虚拟主播“小晴”；今年五一期间，北京电视台推出AI虚拟主播“小萌花”“小萌芽”，央视五四晚会推出AI虚拟主播“小灵”……

回看这波市场热潮，总让人有一种错觉，仿佛回到了当初世界首个虚拟主持人诞生时的群雄起舞。不过，相比当初略显单薄的虚拟主持人，这次新增的“AI”元素，到底会给市场带来什么变化？

在回答这个问题之前，我们需先来界定一下概念。关于“AI”“虚拟主播”的概念，目前百度百科上已有了明确的定论，但关于“AI虚拟主播”却大多“只闻其声，不知其人”。

翻看各大报道，虚拟主持人和虚拟主播的概念正在相互交融。从主播的定义（百度百科）来看，其在主持人的基础上，还融合涵盖了更多领域，以便适用于互联网时代的多媒体形态。

若以此为基准，AI虚拟主播或可定义为，在互联网时代，结合人工智能与三维虚拟形象技术，并可自主承担策划、编辑、主持、制作等一系列工作的主播。

既然定义已经明确，那AI虚拟主播有什么样的故事呢？

这个，要从一段视频开始说起……

1.0时代：雏形初显，虚拟主持人登场

自工业革命起，以机器代替手工劳动就成了人类努力的方向。随后，第一台计算机的发明，让机器开始升级为“人工智能”。步入互联网时代后，“人工智能”更是加快了替代手工劳动的步伐，并从基础的体力劳动层面渐渐转向创意、创作层面。

于是，在翘首期盼了多年后，2001年，传媒业终于迎来了“开辟新天地的创举”——世界上第一个虚拟主持人阿娜诺娃（Ananova）诞生了。CNN将其描述为“一个可播报新闻、体育、天气等的虚拟播音员，堪比一个真实的有血有肉的主播。”

（阿娜诺娃）

阿娜诺娃的出现，有其独特的时代背景。当时，随着网站经济垮台，互联网泡沫破裂，全球动荡不断。而动荡，对于传媒业来说，往往意味着“富矿”。如何加快新闻生产速度，提升新闻播报的准确率，成为了各家媒体竞争的焦点。

英国PA New Media公司正是抓住了这一契机，顺势推出了阿娜诺娃，并将其作为英国传媒业与美联社对抗的“秘密武器”。彼时的阿娜诺娃，虽是一个只有头部动画、表情也略显僵硬的2D虚拟人物，但因可根据新闻脚本快速制作视频，并可24小时持续播报的特点，还是在全球刮起了一阵打造“虚拟主持人”的飓风。

此后，日本推出了寺井有纪(Yuki），中国推出了歌手虚拟主持人阿拉娜（Alana），美国推出了薇薇安（Vivian），韩国推出了露西雅（Lusia）。从2D到3D，从只有头部到拥有全部身体，从只有虚拟人物播报到拥有演播室进行播报，虚拟主持人日渐成熟，被越来越多媒体关注和使用，并引发了全社会对“主持人要下岗”的担忧。

很快，这种担忧就变成了现实。2004年，央视CCTV-6频道推出了国内首位虚拟电视节目主持人—小龙。它采用三维形象技术，拥有高挑的身材，集合了刘德华、梁朝伟和金城武的“脸部精华”，并单独主持了《光影周刊》栏目。小龙的上岗，点燃了国内CG技术从电影级走向消费级的星星之火。

（小龙）

但这把“火”来得快，去得也很快。就在小龙诞生的当年，阿娜诺娃就彻底告别了历史舞台。而曾经吹捧过她的所有媒体，开始纷纷关闭旧栏目，开设新栏目，换上新的真人主持，好像阿娜诺娃从未出现过一样。

直至今日，再回看当年的这波虚拟主持人热潮，仍有几点值得反思：

一、技术的成熟是产品出现的关键，但产品的成熟度如何，是由市场评判的。市场之所以会追捧虚拟主持人，根本目的是为了节省制作成本，提升制作效率。但早期的虚拟主持人，从整个制作过程来看，成本其实远超聘请一位专业真人主持。

（“小龙”的整个制作过程）

二、虚拟主持人具有行业特殊性，对语音、表情、肢体等都有很高的要求。相比其他行业，主持人最基本的要求就是口才。也就是说，虚拟主持人要达到与真人主持一样的口才，语音识别和自然语言处理的准确率都要求极高。显然在这方面，早期虚拟主持人还没有准备好；其次，要让虚拟人物播报呈现出自然状态，就必须解决口型匹配、表情匹配，乃至肢体动作匹配等问题。毕竟只有“音”“容”“笑”“貌”都像人，才不会有违和感；最后，在制作播报视频时，一定要快、稳、准。新闻行业是一个极为注重时效性的行业，如果制作一个视频就需要花费几天乃至几周的时间，那显然是伪命题。

三、虚拟主持人是否一定要像真人，这是在做产品之前必须明确好的方向。早期的虚拟主持人都格外在意“像真人”，似乎这是一条铁律。这很大程度上，源自在当时环境下，主持人大多与新闻播报捆绑，像真人才更有可信度。但从长远发展来看，“像真人”真的是必须的吗？

自阿娜诺娃“死”后，虚拟主持人市场仿佛瞬间熄火，自此步入了长达十多年的“黑暗时代”。

2.0时代：偶像先行，AI虚拟主播顺风飞翔

2016年，当一位自称“超级AI”的虚拟主播绊爱（kizuna ai）在YouTube上首次亮相时，也许谁都没想到，她会成为照亮“黑暗时代”的第一缕曙光。

与早期虚拟主持人不同，绊爱是由真人扮演而成。在专业公司制定好绊爱的3D模型后，由真人穿上动捕设备，在背后控制绊爱的面部动态表情及动作，并由声优去配音及对口型，从而进行直播或录制视频。

（绊爱）

相比早期虚拟主持人，绊爱并不“像真人”，而是以二次元形象出道。但从播报状态上来看，无论是3D形象，还是语音、动作，绊爱相比早期主持人都明显更胜一筹。这种整体播报质感和体验的升级，让绊爱几乎在没有任何市场运作的前提下，YouTube订阅数一路扶摇直上，截止目前已超过259万人，从虚拟主播摇身一变为全民偶像。

绊爱的成功，也有其独特的时代背景。2016年，AlphaGo以1:4打败围棋世界冠军李世石的事实，让人们意识到，已经诞生了几十年的人工智能，处在了可全面商业化的临界点，AI时代正加速到来。

同年，科大讯飞、搜狗、百度先后召开发布会，对外公布语音识别准确率均达到97%。科技自媒体人阑夕曾说，一旦语音识别的准确率达到99%，那将直接进入产业爆发的黎明。巧合的是，这一轮AI虚拟主播热潮的兴起，与AI，特别是语音识别技术的飞跃，几乎是同步的。

智能语音产业的发展速度，在某种程度上影响了AI虚拟主播市场化的进度。但在AI虚拟主播的赛道上，虚拟形象的生成与打造，也是一道绕不过去的坎。毕竟，只有声、没有形的主播，只能存在于广播之中。

2018年5月，科大讯飞携手相芯科技打造了虚拟主持人“康晓辉”。这位虚拟主持人有着与真人相似的外形，不仅与央视记者江凯一同主持了《直播长江》安徽篇，还在现场进行了实时互动。

相比绊爱，“康晓辉”的一大亮点就在于其背后的虚拟形象生成技术（PTA），该技术让人们摆脱了3D虚拟形象定制所需的高昂成本，只需普通摄像头和一张自拍，就可实时生成与自己相似且更美观的3D虚拟形象。

且先不论“康晓辉”与真人有多相似，但其背后离不开真人的操作，还是暴露了AI虚拟主播的不足。毕竟，用真人驱动虚拟形象，对于传媒业来说，并非是一个最好的解决方案。

但“康晓辉”所揭开的瓦片，如同绊爱所带来的曙光一样，还是为传媒业发展指明了一个方向：虚拟主播AI化，势不可挡。

（图片源自网络）

其后的市场走向，也给出了印证。2018年11月，全球首个“AI合成主播”诞生；2019年3月全球首个“AI合成女主播”诞生；2019年春晚AI虚拟主持人团队诞生……在这套AI虚拟主播的方案中，只需输入一段既有的新闻文本，主播就可实时进行播报，且发音与唇形、面部表情等也完全吻合，无论是看上去还是听上去，似乎都与真人无二了。

当然，这是明面上的效果，确实值得肯定。但这套方案的背后，仍没有完全AI化。有业内人士指出，AI合成主播的背后，其实是真人在“表演”，它的实现方式是在真人脸上叠加真人的3D模型，并通过人脸检测与跟踪技术尽可能让两张脸“合二为一”，以呈现出动态播报效果。

听上去是不是有点问题？没错。试想，如果每一个AI虚拟主播的背后都有一个个真人，那为何不直接用真人就好？逻辑是这样没错，但技术的进步总是需要一个过程，如果与市场的接轨，可以加快技术的进步，避免AI虚拟主播的发展走入“死胡同”，也未尝不是一件好事。

从上述AI虚拟主播的演进路线来看，有三个问题是必须要解决的：

一、是否可以不需真人，实现AI虚拟主播的全自动播报？

二、目前来看，定制一个主播的虚拟形象，合成一个主播的音色，都花费巨大，这是否可以解决？

三、在语音识别已渐入佳境时，语音与虚拟形象的高度匹配，是否会成为行业发展的下一个突破口？

3.0时代：全面AI化，虚拟主播走入千家万户

在电影《西蒙妮》中，人们曾描绘过AI虚拟主播的理想形态：

她是一个由计算机虚拟合成的、高度逼真的三维动画人物。她美得令人无法拒绝，一言一行都与真人一样，并可以完成一切表演、播报，且不会有任何绯闻，妥妥的一枚“完美代言人”。

（图片源自网络）

可以取代人类，且不会出现任何差错，也不会有负面新闻，这是很多人眼中的完美AI虚拟主播。但之后的十多年，不论是影视业还是AI虚拟主播行业，都不得不面对一个现实：虚拟形象“像真人”并不简单，目前这个问题是无解的。

有趣的是，2019年《阿丽塔：守护天使》的上映，彻底打破了这个僵局。阿丽塔不仅成为了世界上第一个翻越“恐怖谷”的虚拟人物，还再一次向世人确认了虚拟人物“像真人”的问题是有解的——烧钱就行。

（阿丽塔的制作成本）

但落地到AI虚拟主播，成本是绕不开的问题，于是主攻的方向就自然变成了如何实现影视级到消费级的技术降维。

目前来看，AI虚拟主播的实现方式大致可分为三种。一是上述提到的“真人操作”模式，这一模式灵感来源于影视业，实现方式也跟影视业差不多，都需要配套真人演绎，前期需要进行大量的数据采集，中期需要动捕设备来配合播报，后期需要对视频制作进行再加工。从前期准备到后期制作，成本都不可谓不高，这大概也是该模式目前仅限于一些大媒体，难以大范围推广的原因所在。

二是“AR+AI”模式，灵感来源于全息投影，实现方式依赖于增强现实技术，具体参考百度的AI虚拟主播“小灵”。这一模式，需要提前设置好AI虚拟主播的回答、动作、表情等，并通过其与真人主播的互动，来制造真实感。且因为AI虚拟主播是后期做上去的，所以现场真人主持与其互动时，就需要靠“演”。但这种实现方式，对真人主持的要求极高，对后期制作的要求也很高，从应用层面来看，要大范围推广难度显而易见。

三是全AI化模式，灵感来源于早期主持人，实现方式和效果却比早期主持人好很多。这一模式分成定制AI虚拟主播和使用视频制作后台两步，其将上述两种方式中“人”的成分大大剔除，专注于用AI来替代人力，将虚拟主播的语音、情绪、动作，乃至后期视频制作需要的图片、视频等都集成到后台编辑系统中。目前来看，它是更接近全自动化，也更节省制作成本、提升制作效率的方式。

（小萌芽、小萌花）

但相比前两者已有多个应用，全AI化的模式目前落地的项目似乎只有世园会期间，北京电视台和相芯科技联手制作的AI虚拟主播小萌芽、小萌花的播报视频。不过，该视频中的AI虚拟主播，虽然语音、动作、表情等都已接近真人，但形象上仍是3D卡通人物。

“像真人”，到底什么才像？目前各方并没有一个明确定论。但从现有的AI虚拟主播来看，相比外形像固定的某一个人，语音、动作、表情，乃至播报时的整体状态像真人，似乎更为重要。而要做到这点，还需不断升级自然语言处理技术和语音动画合成技术，前者让人机交互更自然，后者可让虚拟主播更鲜活。

目前来看，在自然语言处理领域，市场上已涌现了诸如谷歌、微软、思必驰等众多国内外企业；在语音动画合成技术领域上，也涌现了诸如百度、相芯科技、搜狗等国内企业。未来，随着技术加速升级，全AI化的虚拟主播也将加速到来。且相比传统媒体行业的应用，也许在自媒体上，这一愿景将会更早实现。毕竟，从全球市场表现来看，截止2018年底，各大平台上的虚拟主播已经超过了6000个。

迈克斯·泰格在《生命LIFE 3.0》一书中说，生命3.0是一个由人工智能重塑的时代。在这个时代，我们可以设计自己的硬件和软件。这与AI虚拟主播时代，可谓不谋而合。

这个时代，到底离我们还有多远？

相芯科技观察：AI虚拟主播简史

推荐阅读

新闻排行榜