2024-03-26
分类:人工智能
阅读(304) 评论(0)
![](https://img1.51tbox.com/static/2024-03-25/col/d05905bcc17caa08c3cda6dce3f777b5/08b5c03b35954f95ba3fe14620c39d8b.jpg) 点击蓝字,关注我们
自 VideoCrafter1 发布以来已近一年,1月17日腾讯AI实验室发布了视频生成模型VideoCrafter2,带来了更高质量的生成效果、改进的视觉品质、流畅的动态效果以及更佳的概念构图。今天一起来了解一下!**# 关于VideoCrafter2**
***01*** **模型介绍** 作为一款高质量视频生成模型,VideoCrafter2它能够从简单的文本描述中变出栩栩如生的视频画面。想象一下,你只需要动动手指,输入几个字,VideoCrafter2就会像哈利·波特挥舞魔杖一样,让你的文字瞬间变成电影级别的视觉盛宴。![](https://img1.51tbox.com/static/2024-03-25/col/d05905bcc17caa08c3cda6dce3f777b5/f7b293f7b3754000a3c29ef4e958b75b.jpg) ***02*** **工作原理**VideoCrafter2的工作原理基于深度学习和扩散模型(Diffusion Models)的原理,通过以下几个关键步骤来实现从文本到视频的生成:
***数据解耦:*** VideoCrafter2将视频内容的生成分解为两个主要部分:运动(motion)和外观(appearance)。运动部分负责视频中物体的移动和动画效果,而外观部分则关注图像的清晰度、颜色和细节。***运动学习:*** 使用低质量的视频数据集(如WebVid-10M)来训练模型的运动部分。这些视频虽然质量不高,但能够提供足够的运动信息,确保生成的视频在运动上是连贯的。 ![](https://img1.51tbox.com/static/2024-03-25/col/d05905bcc17caa08c3cda6dce3f777b5/bb3a211de73d4671a1d7fafd11304d9a.jpg) ***外观学习:*** 使用高质量的图像数据集(如JDB,即Journey Database,由Midjourney 生成的图像)来训练模型的外观部分。这些图像具有高分辨率和复杂的概念组合,有助于提升生成视频的视觉质量。
***模型训练:*** 首先,使用低质量视频和高分辨率图像联合训练一个基础的视频模型。这个模型包含了空间(外观)和时间(运动)两个模块。然后,通过微调空间模块,使用高质量的图像来进一步提升视频的视觉效果。 ![](https://img1.51tbox.com/static/2024-03-25/col/d05905bcc17caa08c3cda6dce3f777b5/02168844b2a44a5f90f37767184c7bdd.jpg) ***概念组合能力提升:*** 为了增强模型在概念组合方面的能力,VideoCrafter2使用合成的图像数据集,这些图像包含了复杂的概念组合,帮助模型学习如何将不同的元素和场景融合在一起。
***生成过程:*** 在训练完成后,VideoCrafter2可以根据文本提示生成视频。它首先从文本中提取关键信息,然后结合运动和外观的知识,逐步生成每一帧图像,最终拼接成完整的视频序列。***评估和优化:*** 通过定量和定性评估,如使用EvalCrafter基准测试,来评估生成视频的质量,并根据评估结果进行模型的进一步优化。 ![](https://img1.51tbox.com/static/2024-03-25/col/d05905bcc17caa08c3cda6dce3f777b5/6e994135108644e3b8598425c9f00448.jpg)
**# 如何使用?**
1.访问VideoCrafter2的官方地址:https://ailab-cvc.github.io/videocrafter2/,然后在User Input 处输入简短的文本;
2.点击Expand Prompt按钮生成更加丰富的提示描述;
3.然后点击Generate Videos,将分别根据原始用户输入和丰富后的提示生成两个视频;
4.生成高清视频需要2-3分钟。
众生皆苦,唯有自渡!