商汤科技数字文娱事业部副总裁李星冶：如影随形实现数字人自由

2024-10-17 21:22 | 来源：中国记协网

【字号: 大中小】打印

Video PlayerClose

　　今年是商汤成立第十年，经历了从创业1.0时代到2.0时代，在1.0时代大家对我们的了解更多是基于感知和认知，在2015、2016年的时候大家认为商汤是做人脸识别的公司，过两天之后又认为商汤是做自动驾驶的公司，随着人工智能技术的发展，尤其是AIGC和大模型的兴起，我们进入了2.0时代，专注于生成式人工智能产品和内容的创新，跨越10年所做的事情有什么不同。

　　最简单的功能去做检测的识别，传统的识别方式是监督学习，给计算性确定性的答案，比如说限速牌，开过车都知道限速30，给确定的识别结果，跟结果做对应就像传统的ARP语料库一样。大模型思考逻辑这里有30公里小孩的标志。为什么大模型有幻想，他猜的可能是对的，可能是不对的，如果这个场景不熟悉就可能出现幻想问题。2023年成为人工智能企业跨越的节点，标志着AI产业规模的显著增长。

　　1.0时代大家更熟悉我们，做一些感知的识别。2.0就是生成式人工智能做的产品和内容，本身从大家更破圈地理解生成式人工智能，理解所谓的大模型是从2022年10月份，行业内关注商汤、华为等大厂，大家更早是2017年有学术成果就开始关注了。GPT4把模型参数卷到万亿的参数，包括GPT5也是千呼万唤难出来，大家不在于把模型做得更大，而是把模型做得更小。我们的重点产品“如影”数字人，是与媒体集团合作的成果，包括与湖南广电、36氪等的合作。在内蒙古参加央视频会议时，大量的微短剧，有人物的关键点，有一些剧作的梗要怎么出分剧本，这中间需要大量的文字上的创作的内容，甚至创作内容可视化，我们探讨了如何利用数字人技术创作微短剧，包括剧本创作和内容可视化。 “秒画”就是文生图、图生图，24张图连在一起就慢慢变成一桢视频或者是电影里面一格，图生图衍生的场景就是图生视频。实现数字人的孪生、物品的孪生、空间的孪生，有三个比较中国风的名字“如影”“琼宇”“格物”。在过去一年中，我们致力于开发更高效的模型应用，推出了基于流式的、端上的模型，确保数据安全和低成本推理。大厂都在做的一件事情，怎么样有更好的模型的应用，所以做了基于流式的、基于端上的，这个模型只有几B，比如说随便拍一个楼，这就是基于端上实时做流式的交互，意义所在我可以完全离线确保数据安全，第二推理成本极低几乎可以忽略不计，我们都知道现在很多厂商，无论是做应用还是做算法的，都在给做云服务的打工，因为大量的推理、计算、调用的成本，完全基于端上，或者是5G的下一个时代一只脚迈入时代的门槛当中，基于流式做这件事情意义会比较大，如果有人第一次来到长沙，美食、杜甫江阁是什么。爬岳麓山、爱晚亭中间的故事是什么，这些模型已广泛应用于文旅场景，以及智慧城市等更广泛的应用场景，比较容易破圈，所以空间更多一些。

　　今年5月日日新5.0迭代发布会上做了展示，右边绿色小人基于GPT4做的，左边是商汤自己的算法用了Lite版，评估的方法很简单，哪个小人把对方打倒了暴力的评估方法，最后的结果我们把GPT4打赢了，仔细看没有创新招式，唯一一点红色小人出拳更快，天下武功唯快不怕，我们有更快的运算速度，把模型的推理和运算放在更前的地方，性价比更高、运算效率更优。主流嵌入很多的芯片，手机、车机、车载、AI设备等都有大量的应用。AI Agent，这是所谓人工智能L3或者是L4应用的场景，这比如说收到一个邮件有办公的场景，给微信里一些人去邀请，比如说给张总邀请吃饭，要给张总发消息确认，约餐厅，甚至约一个人接张总，所以中间有大量的跨平台的智能助理的工作，和海量的APP谈相关的工作，背后也有国家的支持，所以一定程度上代替人做智能交互的场景。

　　媒体老师比我们做得更好，这个很有趣虽然也是图生图，做了大量的人脸融合的工作，我的脸怎么样跟郑钦文的脸合在一起，怎么和潘展乐一样在泳池里面游泳，所以有人脸融合的做的比较好玩，也可以用在数字人等场景里面。我们进行了人脸融合技术的研究，与央视合作，为王冰冰等知名人士创建数字人。在技术壁垒方面，我们成功创建了钱学森的数字人，钱老离开很久了，很多影像资料是不可获取的，我们最后做钱老数字人是按照雕像去做的，甚至找不到完整的视频，这个技术壁垒是挺高的。特别是人民网、新华社、中央广播电视总台，对于审核有更高的要求，我们与工信部合作，开发了可信数字人，每个数字人都拥有可信认证，类似于数字身份证。制作非常快，一分钟或者是几十秒的视频生成数字人，通过提示词去修改数字人，假如某位女士本身就很漂亮，但是如果希望在今天的场合出现，就要很正式，可以微调她的发型、服饰，也可以调整体的风格。还有物体的数字孪生，比如说博物馆，我们也做了大量的文博的场景，周大福和得物等做了选品的合作，还有更大空间的数字孪生，比如说智慧城市所谓AI1.0时代，这是典型应用的场景。在今年世界智能大会被官方评为镇馆之宝的产品Vimi相机，就是通过人可以驱动生成另外一个人，比如说用蒙娜丽莎的照片，通过我去驱动蒙娜丽莎的照片去做任何一件事情，所以是可控的数字人，背后可以用AIGC生成短片，因为我们都知道无论是文生图还是图生视频就像开盲盒一样，这事很有难度，怎么样可控是有难度的，所以2024人工智能大会被评为镇馆之宝。当前我们和新浪微博做合作，微博钱包里面可以看到应用，可以做表情包，让一些明星来做。

责任编辑: 杨涵

商汤科技数字文娱事业部副总裁李星冶：如影随形 实现数字人自由

相关稿件

商汤科技数字文娱事业部副总裁李星冶：如影随形实现数字人自由