腾讯发布混元世界模型 1.5,支持 720P 实时互动虚拟生成

腾讯混元正式发布世界模型1.5(Tencent HY WorldPlay),此举不仅填补了国内实时世界模型开放体验的空白,更以突破性技术架构,为三维内容生成领域注入全新活力。

据官方披露,混元世界模型1.5核心能力体系涵盖三大维度:实时交互生成、长时序3D一致性维系与多元化交互体验构建。目前,该模型已正式开放申请通道,用户可通过腾讯混元3D官网提交使用申请,亲身体验这场技术革新带来的创作变革。

在交互体验层面,模型构建了极简且高效的创作链路:用户仅凭文本描述或单张图片输入,即可唤醒专属互动世界的生成能力。借助键盘、鼠标或手柄等常规设备,用户可实时操控虚拟相机完成移动与转向,以沉浸式探索姿态,畅游AI自主生成的虚拟疆域,实现了创作与娱乐的无缝融合。

腾讯技术团队表示,混元世界模型1.5的问世,重新定义了世界建模的可能性边界。其核心突破在于搭载了先进的空间记忆机制:当用户在生成世界中完成区域探索并离开后,再次回归时,模型可精准“复刻”该区域的三维拓扑结构,呈现出前后高度统一的场景形态。这一特性不仅标志着模型在三维世界理解维度实现质的飞跃,更解决了长期以来业界在动态场景一致性维系上的技术痛点。

值得关注的是,混元世界模型1.5(WorldPlay)率先开源业界首个全链路、全环节实时世界模型框架,覆盖数据采集、模型训练、流式推理部署等核心环节,为全球开发者搭建起协同创新的技术底座,助力行业技术生态的共建与升级。

在技术报告中,混元团队首次公开了模型训练的完整技术路径,涵盖预训练、持续训练、自回归视频模型强化学习及带记忆机制的模型蒸馏等关键环节的细节参数。同时,报告深度阐释了团队在控制空间(control space)、记忆重构(reconstituted memory)、上下文驱动蒸馏(context forcing)及强化学习后训练四大核心模块的原创设计理念与技术考量,为行业技术研究提供了宝贵的实践参考。

作为混元世界模型1.5的技术核心,WorldPlay自回归扩散模型采用Next-Frames-Prediction视觉自回归任务训练范式,成功实现长时序几何一致性下的实时交互式世界建模。这一创新突破,精准破解了业界长期面临的“实时性与几何一致性不可兼得”的技术瓶颈,为实时三维内容生成奠定了坚实基础。

依托三大核心技术支撑,混元世界模型1.5实现了多重技术创新:双分支动作表征架构确保了交互控制的精准度;上下文记忆重构机制筑牢了场景几何一致性的核心壁垒;上下文对齐蒸馏技术则大幅提升了长视频生成的视觉质感与几何稳定性。此外,团队创新性构建基于3D奖励机制的强化学习后训练框架,进一步强化了生成视频的视觉表现力与场景一致性。

数据层面,混元团队搭建了自动化3D场景渲染流水线,可高效产出海量高质量真实世界渲染数据,为核心算法的性能跃升提供了充足的数据支撑。目前,该模型已实现24帧/秒的长时流式生成能力,其优异的一致性与泛化性能,可适配多元化应用场景的需求。

这种全新的内容生成范式,正逐步渗透至多个行业领域,释放出巨大的应用潜力。在AI游戏开发领域,它可化身智能关卡生成引擎,依据玩家文本描述实时构建可探索的游戏场景,大幅降低游戏开发成本并提升创作效率;在影视制作与虚拟现实(VR)领域,创作者通过简洁的文本指令,即可快速完成场景设计的预览与迭代,重塑内容创作的生产流程;在具身智能(Embodied AI)研究领域,混元世界模型1.5搭建起理想的训练与测试基准平台,助力研究者以更高效率、更大规模探索具身智能体的感知、决策、规划及长期交互能力,加速该领域的研究进程。


关注获取内测资格

关注获取内测资格