新浪科技讯 12月17日上午消息,今日,图森未来正式发布图生视频大模型“Ruyi”,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。“Ruyi”专为在消费级显卡(例如 RTX 4090)上运行而设计, 并提供详尽的部署说明和 ComfyUI 工作流,以便用户能够快速上手。
Ruyi支持最小384*384,最大1024*1024分辨率,任意长宽比,最长120帧/5秒的视频生成。同时,可以支持最多5个起始帧、最多5个结束帧基础上的视频生成,通过循环叠加可以生成任意长度的视频。在运动幅度控制方面,Ruyi提供了4档运动幅度控制,方便用户对整体画面的变化程度进行控制。在镜头控制方面,Ruyi提供了上、下、左、右、静止共5种镜头控制。
据介绍,Ruyi是一个基于DiT架构的图生视频模型,它由两部分构成:一个Casual VAE模块负责视频数据的压缩和解压,一个Diffusion Transformer负责压缩后的视频生成。其中Casual VAE模块会将空间分辨率压缩至1/8,时间分辨率压缩至1/4,压缩后每个像素由16位的BF16进行表示。DiT部分使用3D full attention,在空间上使用2D RoPE进行位置编码,时间上使用sin_cos进行位置编码,最终的loss选用了DDPM进行训练。模型的总参数量约为7.1B,使用了约200M视频片段进行训练。
图森未来表示,“Ruyi目前仍然存在手部畸形、多人时面部细节崩坏、不可控转场等问题,我们正在改进这些缺点,在日后的更新中对它们进行修复。”
责任编辑:郝欣煜
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论