当虹科技亮相ITTC!基于视听大模型的AI应用成功落地
6月13日,由中国电影电视技术学会主办的2024北京国际电视技术研讨会(ITTC)拉开帷幕。
来自国家广播电视总局、中央广播电视总台、全国多家广播电视台的领导、行业专家学者以及创新技术企业的500余名代表共襄盛会,集中研讨视听产业创新升级路径,共同推进“超清化、移动化、智能化”创新技术应用发展。
在主题研讨会上,当虹科技智能媒资产品线总经理范涛,展示了当虹科技BlackEye多模态视听大模型的应用,并分享新一代人工智能驱动下媒资如何实现智能生产。
不需要高精度的摄像机360°采集和大规模渲染,手机拍摄几张静态照片或者一段视频,通过AI算法就能在几分钟内生成一个三维模型。这样一个生动的虚拟形象在植入节目后,还能与观众进行交互。
在大会现场,范涛展示了当虹科技智能媒资系统基于BlackEye多模态视听大模型的应用成果。
范涛介绍,BlackEye多模态视听大模型已于今年4月在中关村论坛发布。该大模型还是强大的AIGC引擎,它深度整合视频、音频、图像、文本和三维模型等跨模态内容的推理与生成能力,包括文本生成、文生视频、图生视频等生成式算法,以及AI视觉增强、AI横竖转换、AI智能集锦等分析式算法。
除了算法的优势,BlackEye融合了丰富的数据类型。结合多样性、准确性、安全性等数据要求,公司从核心团队30多年的视听数据积累、视听内容合作伙伴共建共享等来源,全面构建训练所需的数据“燃料”。
“这确保我们BlackEye多模态视听大模型真正贴近业务场景,真正契合客户需求。”范涛表示,当虹智能媒资系统正是在大模型的驱动下,不仅有着更高效率的生产力,还可以创造更高质量的内容。例如,智能标签、高光集锦、三维建模、短视频生产、智能剪辑等,都是智能媒资系统中可以调用的AI能力。
在研讨会上,范涛和大家分享了BlackEye在国内某内容平台的应用案例:在该平台的智能媒资系统中,给出一段演唱会视频或音乐MV,它可以智能分析出高潮片段,并进行横屏转竖屏,剪辑成易于传播的短视频。如果遇到歌词遮挡,还可以自动擦除字幕,保持人物完整性。据了解,基于BlackEye多模态视听大模型的视听能力,已在多家B端客户中落地应用。