今天为大家推荐一个令人震惊的黑科技开源项目:Real-Time-Voice-Cloning。只需你提供5秒钟的语音样本,它就能克隆出你说过的任何话,实时生成语音,效果令人毛骨悚然。
想象一下,如果我收集了300条你说过的语音,并使用这个项目进行训练,经过训练的模型就能生成你说过的所有话。你将听到一个声音,仿佛是你自己在说出你从未说过的话,这种体验确实让人不寒而栗。
更神奇的是,这个项目已经开源,并且在GitHub上获得了超过24K的Star。最吸引人的是,它提供了一个傻瓜式的GUI界面,操作简便,语音采集、训练、生成等过程都可以轻松完成,极大地方便了用户体验。
这项技术,简直颠覆了我们对声音和身份的认知!
地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
环境配置
首先你需要 Python 3.6 的环境、安装 PyTorch(要求版本 > = 1.0.1)。Pytorch 是深度学习框架,你可以通过这个站点来安装这个库。
https://pytorch.org/get-started/locally/
紧接着需要安装 ffmpeg:
地址 https://ffmpeg.org/download.html#get-packages。除此之外,你还需要安装其他的依赖包。将项目下载下来,在包含 requirements.tx 目录下运行命令 pip install -r requirements.txt 就行了。
下载预训练的模型
把开源作者训练好的模型下载下来,我们不用自己训练,直接拿来用就行了:https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models,
下载完毕要放到如下的文件夹里面。
encoder\saved_models\pretrained.pt
synthesizer\saved_models\pretrained\pretrained.pt
vocoder\saved_models\pretrained\pretrained.pt
Details about model training and audio samples can be found here: https://blue-fish.github.io/experiments/RTVC-7.html
启动应用
当你配完了环境,就可以尝试使用这个黑科技了。运行命令 python demo_toolbox.py 就能启动这个黑科技啦!
下面是比较详细的使用教程,遇到问题可以查看帮助:
最后结尾说一下,我用这个模型试了一下,因为这个模型是老外开源的,所以训练的数据是英语的语音,我试了一下说中文,简直就是不会说中文的老外讲中文一个味道,现在我怀疑世界的真实性了。
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning