4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
相信很多大家对4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!还不知道吧,今天菲菲就带你们一起去了解一下~.~!
【新智元导读】国内首个人人可用的国产Sora「清影」,已经引起了AI视频圈的轰动!才发布6天,生成视频数就已经破百万。并且,智谱AI也将同源的视频生产模型CogVideoX,一并开源了。
7月26日,智谱发布AI 生视频产品「清影」,30秒将任意文图生成视频,并上线在他们的AI助手「智谱清言」上,被誉为是国内首个人人可用的Sora。
就在发布6天后,「清影」生成到视频数便已突破了百万量级。
今天,智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX正式开源。
团队表示,希望每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。
打开AI助手「智谱清言」即可体验
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。
以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。
然而,截至目前,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。
CogVideoX系列包含多个不同尺寸大小的开源模型。
目前已经开源的CogVideoX-2B,提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720×480。
它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存。这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。
代码仓库:https://github.com/THUDM/CogVideo
模型下载:https://huggingface.co/THUDM/CogVideoX-2b
技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
目前,该项目已在GitHub上斩获了3.8k星。
下面,我们就来看看CogVideoX生成的效果到底如何?
一个木制玩具船,在模拟海浪的蓝色地毯上航行,宛如在真的海水行驶一般。
一辆白色越野车沿着松树环绕的陡峭土路快速行驶,可以看到车尾的尘土飞扬。
其实这个场景对于AI来说,相对较难,只有正确理解了物理世界,才不会让生成的尘土在车前扬起。
下面这幅在战乱中,人物表情细节的刻画,细腻丰富。
针对更宏观的场景,CogVideoX也能将白雪皑皑的森林、无人穿梭的宁静小路,生动地描绘出来。
舌尖上的美食,还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串,让人看了垂涎欲滴。
CogVideoX
见识到CogVideoX惊艳视频生成能力,你一定非常好奇这是怎么做到的?
VAE视频数据因包含空间和时间信息,其数据量和计算负担远超图像数据。
为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。
其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。
模型结构包括编码器、解码器和潜在空间正则化器,并通过四个阶段的下采样和上采样实现压缩。
时间因果卷积确保了信息的因果性,减少了通信开销。而上下文并行技术的采用,则可以适应大规模视频处理。
实验中,团队发现大分辨率编码易于泛化,而增加帧数则挑战较大。
因此,可将分两阶段训练模型:
- 首先在较低帧率和小批量上训练;
- 然后通过上下文并行在更高帧率上进行微调。
训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。
专家Transformer团队使用VAE的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。
同时,使用T5将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。
最后,反向拼接嵌入来恢复原始潜在空间形状,并使用VAE进行解码以重建视频。
数据视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。但视频可能因人工编辑或拍摄问题而不准确。
为此,团队开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。
通过video-llama训练的过滤器,团队标注并筛选了20,000个视频数据点。同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。
视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。然而,现有的视频字幕数据集字幕较短,无法全面描述视频内容。
为了解决一问题,团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。
这种方法通过Panda70M模型生成简短字幕,使用CogView3模型生成密集图像字幕,然后使用GPT-4模型总结生成最终的短视频。
除此之外,团队还微调了一个基于CogVLM2-Video和Llama3的CogVLM2-Caption模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。
性能
为了评估文本到视频生成的质量,团队使用了VBench中的多个指标,如人类动作、场景、动态程度等。并排除了不适用于评估需求的指标,例如颜色指标,因为它可能误导视频生成模型。
此外,团队还使用了两个额外的视频评估工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些工具专注于视频的动态特性。
值得一提的是,团队已经验证了scaling law在视频生成方面的有效性!
未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。
团队表示,目前的视频质量还有很广阔的提升空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。
此外,性能更强参数量更大的模型正在路上,敬请关注与期待。
参考资料:
https://huggingface.co/THUDM/CogVideoX-2b
https://github.com/THUDM/CogVideo?tab=readme-ov-file
以上就是关于【4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者