腾讯发布混元视频生成模型

December 3, 2024

腾讯混元大模型公布最新进展，上线视频生成能力。与此同时，腾讯开源该视频生成大模型，参数量 130 亿，是当前最大的视频开源模型。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。该模型已上线腾讯元宝APP，用户可在 AI 应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入，API 同步开放内测申请。混元视频生成能力基于与 Sora 类似的 DiT 架构，并在架构设计上进行多多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换；通过先进的图像视频混合VAE（3D 变分编码器），让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。