关于中央广播电视总台在AIGC技术研发与内容生产方面的内容分为三部分,一是总台5G+4K/8K+AI发展进程;二是总台AIGC技术发展情况;三是结合实际应用,介绍AIGC技术赋能总台内容生产。
2019年,总台确立了从传统技术路线向“5G+4K/8K+AI”技术路线转变,积极发展5G、4K/8K超高清、AI人工智能技术,加快推动新技术在内容创作上的应用。5G方面,发布了5G媒体应用白皮书,研发了便携式5G移动背包,在北京冬奥会上支撑高铁5G节目直播;4K/8K超高清方面,发布了总台超高清制播规范,研发了一系列超高清制播设备,建立了全IP化超高清制播体系,在央视春晚等均得到很好的应用。
AI方面,研发了AI虚拟切换伴随制作技术、AI语音转写与合成、AI智能剪辑、AI视频修复增强技术等。这些AI技术的应用,极大地提高了总台在内容创作方面的效率,同时优化了制播流程,节约了制作成本。
与5G、4K/8K超高清相比,总台在AI研发方面相对偏少一些,但是,随着AIGC技术的发展,总台从去年开始快速跟进,加大了AI人工智能在媒体领域的科研力度,积极推动生成式AI技术在节目中制作应用。
总台作为国家级媒体,在AIGC技术发展方面,具有独特的优势:一是能够依托国家重点实验室的研发基础,联合国内头部企业,建立AIGC技术“产学研用” 一体化发展体系;二是拥有多知识、高质量、多模态媒体语料数据,视频248万小时,独立音频65万小时,可实现语料数据资源共享,降低大模型训练和研发成本,引领人工智能赋能媒体行业发展;三是具有丰富的媒体制播应用场景,可将大模型能力与媒体垂直领域相结合,为媒体行业赋能,形成大模型行业示范效应。
2023年7月,总台联合上海人工智能实验室发布了“央视听媒体大模型”,以“书生通用大模型体系”为底座,充分融合了“书生・多模态”、“书生・浦语”等开源通用大模型技术特点,合作打造了面向视听领域的生成式大模型。该模型全面覆盖了分类、目标检测、语义分割、深度估计等关键任务,可通过持续学习更加精准地识别图像,在图像标杆任务上性能取得了显著的提升,可为视听媒体行业科研创新提供支持,为视听媒体产业应用赋能。
在2023年世界人工智能大会上,总台牵头与上海人工智能实验室等10家单位联合发起大模型语料数据联盟,为大模型发展提供高质量、大规模、安全可信语料数据资源,保障大模型科研攻关及相关产业生态发展。总台积累了大量的视音频和文稿等训练数据,可助力大模型语料数据联盟打造多知识、多模态、标准化的高质量语料数据集,通过链接模型训练、数据供给,探索可持续运行的激励机制,打造开放型的大模型语料数据生态圈。
今年2月,为了加快AIGC核心技术研究和创新应用开发,总台成立了人工智能工作室,全面统筹总台人工智能发展规划、技术研发、系统建设和节目应用等工作。工作室一方面对接全台各节目中心栏目和总台广播电视和新媒体媒资平台,将节目制作需求转化为“央视听媒体大模型”能力需求;另一方面对接大模型算法和算力平台,按照节目个性化需求对大模型进行迁移学习和训练微调,从而快速形成适配特定业务的视听节目创作大模型。同时,为加快推进大模型研发应用,总台牵头发起成立“央视听媒体大模型”研发共同体,与国内一流的科研机构、高校和企业加强合作,秉持开放共享、积极创新、协作共赢的原则,在科研攻关、需求应用、安全发展、产业生态等方面联动产业链上下游,为视听媒体科研创新提供支持。
为规范总台人工智能技术合理、安全、高效应用,今年3月,总台制定并发布了人工智能使用规范。规范包括4章24条,其目的是鼓励总台各部门积极探索人工智能的赋能作用,梳理节目制作需求和相关视听数据,支持“央视听媒体大模型”研发、训练及迭代,并引入国内科研机构共同打造的人工智能媒体平台,支撑总台节目制作,充分发挥人工智能技术优势,重构总台节目制播流程,提升制作效率,降低制作成本。
在深圳举办的“ 2024中国AI盛典”晚会上,总台在发布了《人工智能发展白皮书》,明确提出了人工智能发展的四项基本原则,积极探索、推动应用,规范使用、确保安全,科技引领、提质增效,开放包容、合作共赢;科学规划人工智能在赋能媒体制播、引领媒体创新、重构媒体生态等三方面举措。为推动总台人工智能媒体应用,总台已制定了人工智能技术系统建设规划,包括IT基础资源支撑平台、多模态语料供给平台、多模态语料治理平台、多模态媒体大模型研发平台和多模态媒体大模型应用平台。
总台运用央视听媒体大模型,完成了中国首部文生视频AI系列动画片《千秋诗颂》的制作,提升了动画创作效率,扩展了视觉创意空间。“央视听媒体大模型” 利用总台动画类大数据对片中诗词涉及到的人物、场景和器物进行中国审美风格的美术算法训练,将中华古典诗词的博大精深与现代视听艺术完美结合,通过唯美的国风动画形式,让更多的人尤其是青少年,创新感受中华文脉的勃勃生机和独有魅力,在内心深处根植深厚的文化自信。动画片《千秋诗颂》2月26日播出,取得了良好的传播效果。
总台在2019年就开始研发通过AI技术对视频和图像进行修复增强技术,并在建党百年《伟大征程》和北京冬奥会上得到应用,近年来,AI视频增强系统开始利用生成式AI技术来提升AI修复增强的能力和性能,特别是弥补判别式AI模型所不具备的图像细节生成能力,支持AIGC视频超分和人脸增强等功能,对有价值的低质量语料进行修复增强,具备将标清、高清素材修复增强为超高清素材,同时可与总台现有判别式超分、插帧进行级联,提升图像清晰度和质量,同时,构建面向真实应用具有国产化特色的视频数据集,可用于各种视频生成模型的训练和测试,并提供VQA视频质量评价模型。
在今年4月成都汤尤杯羽毛球赛事中,“央视听媒体大模型” 研发的体育技战术分析模型,通过在赛场内设置多个特定角度的机位采集比赛视频信号,完全基于视频内容对运动员动作以及球的运动轨迹进行捕捉、对比和分析。彻底摒弃了传统的依赖于穿戴式硬件来进行测量与动作跟踪的方法,并实时进行三维重建和虚拟3D测量,做到了“零穿戴、零感知”地获取比赛关键参数信息,如羽毛球的最大过网速度、最大网前过网角度、运动员最大起跳高度、移动距离等。实时计算出羽毛球比赛中关键参数并以图文、视频渲染等多元化方式呈现在电视屏幕上,为赛事直播以及赛后技战术分析提供有力数据支撑,满足广大电视观众智慧观赛的需求。
在刚刚结束的巴黎奥运会,我们对央视听媒体大模型体育模块进行了优化升级,采用最新算法并完全基于OBS 公共信号进行计算分析,技术人员无需去巴黎赛事前方,通过回传总台后方节目信号即可完成远程制作,,与总台前方人工智能制作系统形成了差异化互补,共同打造了总台全方位、多角度、立体化AI 体育转播盛宴。一是技战术分析模型,运用单视频空间虚拟测量和3D重建技术从巴黎前方传回的公共信号画面中自动精准识别并抽取有效的技战术分析视频,准确分析出球的过网速度以及高度、吊球角度、球员位移、落点预测估计及压线质量等关键技战术参数。成功应用于网球、羽毛球等赛事节目制作。二是时间切片模型,运用自主研发的智能图像分割和拼接技术对视频信号中的运动镜头进行分析并实时完成时间切片场景重建,大幅降低现场硬件设备部署成本。三是风格化转绘模型,运用中国传统艺术风格等自定义转绘风格,将赛事图片、视频用AIGC 技术转绘成不同画风的素材,多次应用于CGTN 英语频道奥运奖牌榜、央视频巴黎奥运中国40 金转绘回顾等场景。
在今年的世界人工智能大会上,总台联合北京新影联影业公司发布动画电影《团圆令》的启动仪式,《团圆令》大电影是以大熊猫团团圆圆为原型,以促进青少年文化交流为宗旨的原创动漫IP,电影将由新影联作为发行单位,由总台牵头,依托央视听媒体大模型,为负责电影制作的北京灌木公司提供AIGC技术支持。影片制作将颠覆以往电影生产模式,开创全新的AI动画电影生产流程,实现从角色设计、场景构建到动画渲染全链路的高效创作。
最近,我们在建设总台AIGC内容生产平台,主要是在央视听媒体大模型的基础上,联合大模型研发共同体的合作企业,从媒体内容制作的角度,梳理采编播流程,,在文本创作、图像创作、视频编创方面深入引入AIGC内容创作,计划月底开始在总台内部提供测试使用。
总台在人工智能媒体应用平台中将建设基础资源支撑平台、多模态语料供给平台、多模态语料管理与治理平台、大模型研发平台和大模型应用平台,构建语料供给-语料治理-大模型训练-赋能媒体制播-语料再生成的闭环体系,全流程实现生成式人工智能从语料训练到大模型落地的实际应用。
最后,做一个简单总结,一是总台积极研发AIGC技术,完善央视听媒体大模型功能模块,尤其在动画制作、影视译制、体育转播和智能编辑方面提供内容创作和实际应用;二是依托总台人工智能工作室,推动总台AIGC内容高效创作,赋能总台节目生产;三是以总台丰富的媒体制播场景为试验基础,以媒体行业应用为导向,重构媒体生态加快形成新质生产力;四是以总台多知识、高质量、多模态媒体语料数据为基础,形成统一语料集,形成资源共享,促进我国人工智能产业升级。(作者系中央广播电视总台超高清视音频制播呈现国家重点实验室副主任)