中科闻歌源自中科院,创始团队2007年在自动化研究所承担国家互联网大数据的各种项目,沉淀了技术和产品。2017年中科院鼓励科学家创业,走出了舒适区,经过市场化的洗礼,一路走来,得到了中科院基金、中网投、央视新媒体基金等国家资本的投资,又红又专的人工智能领先企业。去年研发训练了雅意大语言模型,今年8月底发布YOYA多模态文生视频平台。
闻歌的大数据和人工智能技术积累,针对不同行业的场景需求,推出红旗融媒体智能平台,晴天多模态媒体洞察平台,多投智能投研平台等系列产品方案,赋能千行百业。研发服务多个国家级标杆项目,中间是全球舆论态势感知平台。
今年2月,OpenAI的Sora发布,让内容产业的从业人员感到惊艳和震撼!Sora作为一个素材生成器拓展了素材获取的途径,但大模型赋能多媒体内容创作仍需要做大量工作。我们把多媒体内容的生产过程拆解,就可以看到,AI 好像还可以干很多事情,从创意脚本到分镜到素材检索到旁白配音到剪辑等等。直接使用AI工具辅助内容生产的体验并不是特别好!这很正常!因为OpenAI发布Chatgpt、Sora是在走通用人工智能之路,而不是为内容产业量身定制的系统。这需要我们这样的人工智能企业深入到内容产业的场景中,根据需求和高质量的数据研发训练各种系统工具。
内容生产离不开文图音视四种模态。第一代创意制作全由人工实现,比如说:靠人的写文字+手绘图发行报纸书籍;第二代:人工创意+辅助制作工具,比如说:电脑软件Word,PS、AE辅助创作;第三代:人与AI共创新模式,AI既是人灵感的拓展,也是创作的伙伴。比如说:你有一个想法扔给AI,他可以给你编脚本,给你出视频,这就变成你的创意,这是一个人和AI共创的新时代!
中科闻歌研发推出了国产自主可控的雅意大语言模型1.0、2.0、3.0;YOYA让AI生成有价值视频;应用在视频创作全链路,比如说:无中生有,30s一键生成视频;有中生优,媒资库素材一键成片;
很多媒体领导跟我们交流时,都谈到一个痛点刚需,媒体多年积累了很多高质量的图文视听语料,要花大量的人力财力进行标注治理,才能方便后面的同事,找得到某一段要用的视频或镜头。而且数据不能出域,每年上万小时的图文视听语料需要加工,耗时耗钱,才能成为数据资产,可以交易。记者们有了创意,查阅内部各种资料时,也存在这样的刚需痛点。优雅(YoYa)的多模态内容理解与编目技术能力,可以帮到大家。我们看这个视频,优雅可以从主题、景别、运镜、场景、节奏来把这个视频读懂,进行自动化的标注编目,节约大量成本,形成自己多模态的语料素材库,即方便查找,方便二次创作;又能转售给其他需要的单位,通过数据交易获得新收入。
雅意Agent的技术能力,实现人机混合的群体智能;中科闻歌的联合创始人曾大军所长,90年代在美国卡耐基梅伦大学读博士专门学习人工智能时,他的导师是agent 主要推动者之一。2017年创立中科闻歌的时候他还不是自动化研究所副所长,现在兼任中科院基础能力局副局长。中科闻歌在智能体方面的技术积累是非常丰厚。怎么玩?比如说:您要编一本书,可以根据创意生成大纲,有不同章节,然后扔给不同的智能体,去生成不同章节的内容,反复干,直到满意。
所以我们提出“人工+智能”共创内容产业新范式,适用于出版传媒、电广传媒、影视传媒等内容产业,由1数据基座+2大模型系列+3平台+N智能体应用。
先盘清楚我们的语料数据库,到底有哪些形态的语料数据?分布在哪里?然后通过语料加工平台,多模态信息经过抽取、清洗、语料化加工、审核,进入到管理平台,进行多模态内容编目、特征抽取、语义检索。这就方便我们找到想要的素材,以文搜图、图搜图、图搜视频都可以。 在此基础上,就可以进行内容生产和知识服务;面向不同领域的场景需求,应用多智能体编排支撑内容生产。
泛媒体内容智能生产与传播系统的框架图,AI全面赋能内容生产的策采审编发,管馈评联的全流程。光说不练是假把式,看看我们的YoYA系统。基于多模态媒资库一键成片。输入一句话,自动完成全流程,快速生成高质量的视频,可以修改编辑素材,修改背景音乐,媒资库可以基于电视台或者出版社的私域图文视听语料库。雅意大模型有很多功能,不管是从选题编写,还是扩写视频创作,都可以干,时间关系我们就不展开。
我们认为生成式人工智能将重塑内容生产全流程,“人工+智能”将共创内容产业新范式。