首页 > 正文

商汤科技数字文娱事业部副总裁李星冶:如影随形 实现数字人自由

2024-10-17 21:22 | 来源: 中国记协网
【字号: 打印  
Video PlayerClose

  今年是商汤成立第十年,经历了从创业1.0时代到2.0时代,在1.0时代大家对我们的了解更多是基于感知和认知,在2015、2016年的时候大家认为商汤是做人脸识别的公司,过两天之后又认为商汤是做自动驾驶的公司,随着人工智能技术的发展,尤其是AIGC和大模型的兴起,我们进入了2.0时代,专注于生成式人工智能产品和内容的创新,跨越10年所做的事情有什么不同。

  最简单的功能去做检测的识别,传统的识别方式是监督学习,给计算性确定性的答案,比如说限速牌,开过车都知道限速30,给确定的识别结果,跟结果做对应就像传统的ARP语料库一样。大模型思考逻辑这里有30公里小孩的标志。为什么大模型有幻想,他猜的可能是对的,可能是不对的,如果这个场景不熟悉就可能出现幻想问题。2023年成为人工智能企业跨越的节点,标志着AI产业规模的显著增长。

  1.0时代大家更熟悉我们,做一些感知的识别。2.0就是生成式人工智能做的产品和内容,本身从大家更破圈地理解生成式人工智能,理解所谓的大模型是从2022年10月份,行业内关注商汤、华为等大厂,大家更早是2017年有学术成果就开始关注了。GPT4把模型参数卷到万亿的参数,包括GPT5也是千呼万唤难出来,大家不在于把模型做得更大,而是把模型做得更小。我们的重点产品“如影”数字人,是与媒体集团合作的成果,包括与湖南广电、36氪等的合作。在内蒙古参加央视频会议时,大量的微短剧,有人物的关键点,有一些剧作的梗要怎么出分剧本,这中间需要大量的文字上的创作的内容,甚至创作内容可视化,我们探讨了如何利用数字人技术创作微短剧,包括剧本创作和内容可视化。 “秒画”就是文生图、图生图,24张图连在一起就慢慢变成一桢视频或者是电影里面一格,图生图衍生的场景就是图生视频。实现数字人的孪生、物品的孪生、空间的孪生,有三个比较中国风的名字“如影”“琼宇”“格物”。在过去一年中,我们致力于开发更高效的模型应用,推出了基于流式的、端上的模型,确保数据安全和低成本推理。大厂都在做的一件事情,怎么样有更好的模型的应用,所以做了基于流式的、基于端上的,这个模型只有几B,比如说随便拍一个楼,这就是基于端上实时做流式的交互,意义所在我可以完全离线确保数据安全,第二推理成本极低几乎可以忽略不计,我们都知道现在很多厂商,无论是做应用还是做算法的,都在给做云服务的打工,因为大量的推理、计算、调用的成本,完全基于端上,或者是5G的下一个时代一只脚迈入时代的门槛当中,基于流式做这件事情意义会比较大,如果有人第一次来到长沙,美食、杜甫江阁是什么。爬岳麓山、爱晚亭中间的故事是什么,这些模型已广泛应用于文旅场景,以及智慧城市等更广泛的应用场景,比较容易破圈,所以空间更多一些。

  今年5月日日新5.0迭代发布会上做了展示,右边绿色小人基于GPT4做的,左边是商汤自己的算法用了Lite版,评估的方法很简单,哪个小人把对方打倒了暴力的评估方法,最后的结果我们把GPT4打赢了,仔细看没有创新招式,唯一一点红色小人出拳更快,天下武功唯快不怕,我们有更快的运算速度,把模型的推理和运算放在更前的地方,性价比更高、运算效率更优。主流嵌入很多的芯片,手机、车机、车载、AI设备等都有大量的应用。AI Agent,这是所谓人工智能L3或者是L4应用的场景,这比如说收到一个邮件有办公的场景,给微信里一些人去邀请,比如说给张总邀请吃饭,要给张总发消息确认,约餐厅,甚至约一个人接张总,所以中间有大量的跨平台的智能助理的工作,和海量的APP谈相关的工作,背后也有国家的支持,所以一定程度上代替人做智能交互的场景。

  媒体老师比我们做得更好,这个很有趣虽然也是图生图,做了大量的人脸融合的工作,我的脸怎么样跟郑钦文的脸合在一起,怎么和潘展乐一样在泳池里面游泳,所以有人脸融合的做的比较好玩,也可以用在数字人等场景里面。我们进行了人脸融合技术的研究,与央视合作,为王冰冰等知名人士创建数字人。在技术壁垒方面,我们成功创建了钱学森的数字人,钱老离开很久了,很多影像资料是不可获取的,我们最后做钱老数字人是按照雕像去做的,甚至找不到完整的视频,这个技术壁垒是挺高的。特别是人民网、新华社、中央广播电视总台,对于审核有更高的要求,我们与工信部合作,开发了可信数字人,每个数字人都拥有可信认证,类似于数字身份证。制作非常快,一分钟或者是几十秒的视频生成数字人,通过提示词去修改数字人,假如某位女士本身就很漂亮,但是如果希望在今天的场合出现,就要很正式,可以微调她的发型、服饰,也可以调整体的风格。还有物体的数字孪生,比如说博物馆,我们也做了大量的文博的场景,周大福和得物等做了选品的合作,还有更大空间的数字孪生,比如说智慧城市所谓AI1.0时代,这是典型应用的场景。在今年世界智能大会被官方评为镇馆之宝的产品Vimi相机,就是通过人可以驱动生成另外一个人,比如说用蒙娜丽莎的照片,通过我去驱动蒙娜丽莎的照片去做任何一件事情,所以是可控的数字人,背后可以用AIGC生成短片,因为我们都知道无论是文生图还是图生视频就像开盲盒一样,这事很有难度,怎么样可控是有难度的,所以2024人工智能大会被评为镇馆之宝。当前我们和新浪微博做合作,微博钱包里面可以看到应用,可以做表情包,让一些明星来做。

责任编辑: 杨涵
010090110010000000000000011124041310786769