专访商汤科技“如影”团队负责人栾青:汤晓鸥数字人诞生背后
【环球时报报道 记者 杨沙沙 陈子帅】“往前看,别回头……在AI这条路上往前开吧!”当商汤科技创始人汤晓鸥在2024年商汤线上年会视频中说出这句话的时候,《再回首》的音乐响起,《漫长的季节》片尾小火车在苞米地里前行,很多商汤人当场泪崩。
商汤年会结束不久,《环球时报》记者来到北京理想国际大厦,见到了此次制作汤晓鸥数字人视频的商汤“如影”团队负责人——商汤科技数字空间事业群数字文娱事业部总经理栾青。在她的讲述中,我们得以还原“汤晓鸥数字人”诞生的经过,以及商汤为该技术近十年的积累。
像“教孩子”一样,训练数字人
在栾青的引领下,《环球时报》记者先来到“数字人实验室”,这里是录制数字人的影棚,看起来跟普通摄影棚没多大区别,有绿色的幕布、各种灯光、话筒以及摄影摄像的其它装置。栾青告诉记者,如果想做一些效果比较好的数字人,他们通常建议客户来商汤的影棚录制,十几秒的视频录制就足以制作一个数字人。
年会后,商汤将年会上播出的9分36秒的汤晓鸥数字人视频上传到了商汤官方微信视频号上,引发了网友的追思和热议。目前很多已故名人的后人找到商汤,希望能做逝世亲人的数字人。对于这部分数字人制作需求,会比普通数字人难度大,因为他们本人不可能来到影棚录制,尤其是历史人物的数字人复原,遗留的影像资料只有短短几秒,且像素很不清晰,因此需要在已有的视频素材基础上,进行反复调参还原。
每年商汤年会,汤晓鸥的脱口秀是保留节目,会将年会气氛带到高潮。AI圈内人形容汤晓鸥是“被AI耽误的脱口秀演员”“CV(计算机视觉)领域著名喜剧人”。在9分36秒的视频中,汤晓鸥数字人的声音、表情、动作都非常自然(如图),中场还拿起水杯喝了一口水,甚至东北人的天生幽默感也被逼真自然还原。例如提及商汤多位高管深夜想找他聊一聊,汤晓鸥称“解决不了麻烦,就解决提出麻烦的人”,所以索性不接电话,引发大家会心一笑。
按照往年情节,汤晓鸥也推荐了今年他认为优秀的电影,6分10秒左右,当汤晓鸥提及今年春节热播电影《热辣滚烫》的时候,很多在场员工才明白,这不是他本人提前录制的视频,因为他还没来得及看这部电影。汤晓鸥本人在2023年12月15日去世。通过数字人技术,汤晓鸥的音容笑貌得以跨越次元,再次和商汤人重逢。
“让汤晓鸥数字人上年会这件事是商汤人的集体决策,立项第一步是要征求汤老师家人的同意,家人的认可是我们做这件事情的前提。”栾青告诉《环球时报》记者,汤晓鸥家人授权后,商汤如影数字人团队开始寻找汤晓鸥生前的一些视频片段,从中取材作为训练大模型的素材。
栾青称,训练主要包含两步,第一步是形象训练,包含衣着、动作、表情等等,将视频参数化之后放到商汤“日日新”大模型里进行训练;第二步是声音训练,栾青表示这方面挑战大,如果不是靠声音大模型很难达到现在的效果,想创造一个具有东北人口音、段子手风格的数字人形象,“难点在于尽管找到了视频片段,但汤老师当时说话的风格不一定跟这次年会文案想表达的风格一致,因此大家花了一些力气,挑选了十几段、每段十几秒的音频,反复让大模型学习”。
栾青形容,整个训练过程就好像在教一个孩子,播放各种视频让孩子学习、模仿。比如,中间有一个喝水的细节,在训练AI的时候,栾青称要将汤老师生前的喝水视频放入大模型,并标注提示喝水时间。“影像的力量还是非常伟大的,虽然之前已经知道文案,但当汤老师的数字人真的说出这些话的时候,我们还是非常震惊和感动的,仿佛汤老师又回来了”。栾青这样表示。
9分多钟,近10年
“数字人技术,是从事人工智能研究领域的我们都希望摘下的皇冠上的明珠。”栾青这样表示。商汤科技在数字人领域已经有了相当的积累,9分钟多的视频背后,是商汤近十年的技术积累。
2014年商汤成立于香港,创始团队源于汤晓鸥2001年在香港创立的香港中文大学多媒体实验室。2014年,商汤团队发表 DeepID 系列人脸识别算法,全球首次超过人眼识别率。路透社称,汤晓鸥创办了软件开发公司商汤科技,该公司随着各方对面部识别技术的需求而蓬勃发展。公司成立第二年,已经尝试在人工智能人物分析上做商业化探索。
栾青形容,“每个女生可能都用过我们的产品,例如特效引擎美颜”。在积累了深厚的人脸人体分析技术能力后,2016年商汤上线各种人脸特效,如早期吐彩虹、换脸、明星变装等,支持娱乐互联网的直播、特效等功能,国内外很多社交平台都采用了该技术。2018年,商汤上线三维虚拟人,采用文字语音等大模型方式驱动虚拟人,这是商汤数字人技术诞生的历史渊源。2019年,商汤内部已经开始用数字人跟客户在不同场景做交流沟通。
2023年4月10日商汤科技在上海发布通用人工智能大模型体系“日日新”。该体系内包含了中文语言大模型“商量”、文生图生成模型“秒画”、AI数字人视频生成平台“如影”等。栾青表示,汤晓鸥生前并没有直接参与数字人项目,但一直认可这个方向,“就像他在视频里说的那样,要做原创,坚持中国原创技术这件事,是留给有勇气的人去做的”。
“中国现在是遥遥领先”
栾青强调,这段9分多钟的视频还包括两部分水印,一部分水印是可以看得到的标注,另一部分是一种隐形编码,用于追踪汤晓鸥数字人的今后应用场景,防止被非法和未授权使用。
栾青表示,数字人出现的每个场景都需要授权,并不像外界想象的那样,制造出来数字人后,让其在数字世界随意裸奔。此前,在中国通信研究机构牵头下,商汤科技等多家AI公司共同制定了“可信虚拟人生成内容管理系统技术要求”的标准,制作一个数字人首先要被当事人授权或者得到家人同意,这种授权是一次性的,每次在新场景中使用,就需要新的授权。同时数字人视频要植入“隐形水印”,防止被授权以外的人滥用。
《环球时报》记者在一些电商平台搜索“AI数字人制作”时发现,有一些商家号称几十块人民币就可定制一个数字人。栾青对此表达了担忧,她建议消费者,首先要看看商家有没有国家相关机构颁发的授权证书,就像买东西要看看商家是否有营业执照一样,否则日后数字人可能会有被滥用的风险。
就目前看,数字人在中国市场的应用场景十分丰富,数字人直播卖货、教师数字人录播课程、企业海外营销等等。栾青自己也有数字人,经常过年过节给一些阿拉伯、日本等客户发问候视频,使用的就是栾青说阿拉伯语或者日语的数字人。
谈及国内外数字人技术以及应用的对比,栾青说,“客观讲,在数字人技术应用领域,中国现在是遥遥领先”。中国的直播、短视频等商业化发展非常迅猛,带动了中国数字人应用整体要比海外更早爆发。她认为,未来,更强大、复杂的人物视频生成,有可能是在中国而不是在别国爆发。
热门相关:全民女神:重生腹黑千金 超级英雄 极品仙医在都市 战神小农民 大周仙吏