一学就会，制作照片开口说话视频的保姆级教程-工具盒子

近期发现, 继 AI 老照片动态化之后,又出现了一项新的异常值 - AI 照片开口说话视频。与之前仅能让静态照片产生动态效果不同,这项新技术赋予了照片说话的能力, 弥补了之前的局限性。这一创新引发了新一轮项目开发热潮。

目前, 这项技术主要应用于创建 AI「复活」的数字人, 以实现某种形式的「数字永生」。尽管这可能引发一些伦理和道德争议, 但市场需求依然强劲。在一些短视频平台上, 已有不少账号专注于此类内容, 且视频的喜欢数都在 100+ 以上。

我们先看下视频

可以看到这类视频背后的核心是数字人技术。它通过AI技术,将一张静态照片转化为生动逼真的动态视频,同时配以音频效果。

那么，接下来跟着我来操作，如何制作这种类型的视频。

制作此类视频, 图片质量至关重要。客户提供的原始照片往往难以满足高质量视频制作的要求。因此,前期图片处理成为不可或缺的步骤。若忽视这一环节,最终生成的视频效果将会大打折扣。

图片处理主要包括以下几个方面:

裁剪: 调整画面构图,突出主体。
高清化: 提升图片分辨率和清晰度。
上色: 为黑白照片添加自然的色彩。

具体采用哪些处理方式,需要根据每张照片的实际情况灵活决定。这个前期准备工作做得越细致,最终生成的视频效果就会越出色。

一、图片裁剪

如果我们的图片是那种人物全身的，没有突出人物主体的，那么是需要做裁剪操作的，因为如果不裁剪一来可能会影响后面的图片高清效果，再者如果不突出人物主体，生成的视频效果就会变差。

我们裁剪的时候在顶部和左右边距各留一点间距，不要太占边，只需要人物的上半身，大概在人物的胸口位置即可。

裁剪工具这里用的是：「美图设计室」https://www.designkit.com/editor/from=home&matrix_channel=mtxx_web

二、图片高清

图片如果是那种模糊不清的，也不能直接制作，最好进行高清化处理。这种处理软件也有不少，上次推荐「佐糖」感觉还不错。

打开增强人脸，下载图片的时候可以选择标清或高清，高清下载需要 2 个点，刚注册的时候有 3个点，用完就只能买，不过一般使用的话，感觉标清就够了，这个看自己要求而定了。

佐糖：https://picwish.cn/photo-enhancer

三，图片上色

图片上色的工具也有很多，每种算法也不一样，最后出来的效果也就有所差异了，我主要用过的有下面几个，上次也写过这方面的文章推荐的。

主要有「AI画室」、「佐糖」、「Palette」、「jpgHD」等，这些软件没有所谓的最好，看哪一个能满足我们的要求就用那一个就好。

AI画室：https://www.aihuazuo.com/laozhaopian/
佐糖：https://picwish.cn/photo-colorizer
Palette：https://palette.fm/color/edit
jpgHD：https://jpghd.com/zh

经过上面的几步操作，图片就处理的差不多了，但如果我们需要制作引流视频的话，图片就不能随便使用了，防止侵权，可以先去对标账号里面找到视频，然后将视频里面的某一帧图片截屏保存。

然后去掉水印和其它不相干的东西，去水印，可以使用「百度AI图片助手」这个，我感觉功能还是挺强大的。

百度AI图片助手：https://image.baidu.com/

水印去掉完成后，再使用即梦进行图片二创，登录进去后，我们选择图生图，选择刚才的图片作为参考，作轮廓参考，模型选择「即梦通用 XL Pro」，

精细度拉到最后，再写一个我们需要的提示词。

选择合适满意的图片，然后进行高清 HD 处理后，下载图片到本地。

经过上面的一系列操作，我们的图片就处理好了。

四，配音

配音可以使用 AI 配音和声音克隆，如果是给客户定制且提供了声音素材的话，就可以用声音克隆的，不过一般的引流视频的话，直接 AI 配音就行了。

4.1 ) AI 配音
AI 配音可以使用一些配音软件，然后寻找和图片里面当前人物和年龄匹配的声音即可，在剪映里面也有很多的声音可以去使用的。

通过文本朗读后生成音频再导出音频。

如果没有开会员，上面有很多 VIP 的声音是不能直接导出的，这里教你一个白嫖的方法。

因为这个声音只有在导出的时候才会提示你需要开会员才能用，我们可以在剪映播放音频的时候，打开电脑的录音软件，把声音录制下来保存就行，这样出来的效果不能说百分百还原，但是也相差不大了。

4.2 ) 声音克隆

声音克隆可以使用睿声或 FishAudio ，这俩目前在中文声音克隆方面都还不错，而且睿声还能白嫖。

睿声：https://dash.reecho.cn/overview
FishAudio：https://fish.audio/zh-CN/

睿声要使用的时候，每日签到一下就有点数了，可以用来语音生成。

点击左边的语音生成，需要有一个角色，也就是要克隆的对象，如果没有的话，需要创建角色，

然后提供角色对应的音频素材训练角色出来，再分配角色生成语音就可以了。

FishAudio, 也会每日赠送相应的配额，一般用也够了，生成一个声音扣除 1 个点。

如果要进行声音克隆，就使用上面菜单的语音合成和构建声音两项，构建声音就是使用音频素材先训练一个声音出来，然后语音合成的时候，选择构建出来的声音即可。

声音处理完成后，就可以进入后面的视频制作环节了。

五、视频制作

视频工具可以使用「Hedra」和「DreamFace」， Hedra是Web网页的直接浏览器打开，DreamFace 是 APP 软件的，需要下载安装，手机浏览器打开地址，直接下载安装文件。

Hedra ：https://www.hedra.com/
DreamFace: https://dreamfaceapp.com/

这两种工具我对比使用下来，觉得 DreamFace 的效果在某些方面是要比 Hedra 好一些。所以可以先用 Hedra 试下，效果不好再换 DreamFace 。但是 DreamFace 是可以制作未成片人图片的，而 Hedra不行。

工具对比：

5.1）Hedra：优点：整个人物的动作幅度较大，看起来逼真一些，但是偶尔会产生人物变形。

缺点：
1，免费版每天只能生成 5 个视频，可以通过临时邮箱注册多账号解决。
2，不能制作未成年人图片，可以用 DreamFace 代替。
3，免费版视频长度为 30S，可以用剪映将音频进行加速或减速处理。
4，视频只能按正方形裁剪图片，无法按原来的宽高，如果确实需要的话，使用DreamFace代替。
5，水印问题，可以通过将原图片底部留下一定的边距，后续直接剪裁掉。

5.2） DreamFace:
优点：
1，可以制作未成年人图片。
2，可以按原图宽高制作视频。

缺点：
1，免费版每天生成 10 个视频，同样可以临时邮箱注册多账号解决。2，免费版视频长度为 30S ，和 Hedra 一样处理。
3，水印问题和 Hedra 一样处理，将图片底部留点边距，后续直接剪裁掉。

Hedra 软件使用

软件操作特别简单，上传制作好的音频，图片、生成视频，就等待生成好视频即可。