智谱AI多模态开源周已圆满收官,智谱研发团队于活动期间正式宣布开源四项核心视频生成技术。这一系列技术成果不仅彰显了智谱在多模态模型领域的前沿探索与突破,更为全球视频生成技术的演进铺就了坚实的基石。
在为期一周的开源盛宴中,智谱GLM团队密集发布多款多模态模型,覆盖视觉理解、设备智能操控、语音处理等多个关键领域。其中,GLM-4.6V视觉理解模型、AutoGLM设备控制模型、GLM-ASR语音识别模型及GLM-TTS语音合成模型的相继亮相,承载着让大型语言模型具备类人化世界认知、记忆存储及复杂逻辑推理能力的核心愿景。
开源周收官之日,智谱团队再度释放技术重磅——正式推出SCAIL、RealVideo、Kaleido与SSVAE四项视频生成领域的创新技术。该批技术精准聚焦视频生成领域的核心痛点,在细粒度可控生成、复杂时空结构建模及大规模训练成本优化等关键维度实现了突破性进展。
作为电影级角色动画生成技术的代表,SCAIL凭借其卓越的技术架构,可精准驾驭复杂角色姿势的动态控制,在角色运动过程中始终保障其结构完整性,为高品质角色动画创作提供了全新可能。RealVideo则以实时流视频生成系统的定位惊艳亮相,大幅压缩视频生成延迟,仅需2-3秒即可完成全流程视频输出,此举彻底革新了人机交互体验,让用户与AI角色的互动更趋自然流畅。
面向多智能体视频生成场景,Kaleido技术构建了高效的生成框架,通过精细化的智能体协同机制,不仅确保了多智能体在视频中的行为一致性,更成功规避了行业内常见的特征混淆难题。而SSVAE技术则深耕模型训练环节的效率提升,通过优化训练流程与算法逻辑,在保障视频生成质量持平的前提下,将模型收敛速度提升三倍,为大规模视频生成模型的研发降低了成本门槛。
智谱团队表示,此次核心技术的开源之举,旨在激活全球视频生成技术社区的创新活力,为广大开发者提供兼具实用性与前瞻性的工程解决方案及研究底座。未来,智谱将持续秉持开放协作的理念,期待与全球开发者携手探索人工智能的边界,助力通用人工智能(Artificial General Intelligence, AGI)的早日实现。
据悉,智谱AI作为深耕认知智能领域的中国人工智能企业,始终以打造新一代认知智能通用模型为核心使命,其自主研发的ChatGLM系列模型凭借优异的性能表现赢得全球行业的广泛关注与认可。在生态建设层面,智谱AI积极搭建国内外协同创新桥梁,通过与多所高校及科研机构建立深度合作,共同推动人工智能技术的科研创新与产业落地。
