Dark Mode Toggle

语音克隆，口型同步相关技术和链接（持续更新）

2023 Nov 21 See all posts

语音克隆和口型同步是非常有意思的技术（Tone Color Cloning/Voice Style Control/Lip-syncing），上半年有孙燕姿AI，下半年有霉霉说中文。现收集了一下相关的公司和开源项目备忘，并尽量持续更新。

2024/02/06：训练出迄今全网还算不错的单田芳老先生的声音模型，举个🌰如下，提前祝所有人春节快乐！:

商业公司

HeyGen

居然曾经是一家深圳公司，但业务完全国际化。

HeyGen目前总共拥有25名员工。

刚刚获得一笔560万美元的融资，估值 7500 万美元。

HeyGen今年从订阅用户的净收入已达到1800万美元。

HeyGen 即将发布的新产品能够利用智能手机拍摄的视频，在短短五分钟内生成定制的 AI 虚拟形象。

HeyGen 联合创始人 Joshua Xu 和 Wayne Liang，都毕业于卡内基梅隆大学的计算机专业研究生。

网址：https://www.heygen.com

用户评论：

我曾经用HeyGen制作过几个视频。他的优势是根据脸部照片生成视频，而且发爆破音的时候嘴唇的咬合更真实。现在他更新了算法，能在不遮挡嘴部的前提下自然的运用手势，付费版具有语音克隆功能。如今大陆up主流行用Heygen来模仿老外讲述中国故事。

elevenlabs.io

10月份在火火兔上体验过免费额度，Multigual效果惊艳，"口水音"和停顿都与真人无异，商业模式也是订阅付费制。

网址：https://elevenlabs.io

veed.io

评论：

VEED AI Avatars：可以将文本转化为由AI驱动的虚拟角色视频。

这个工具和Heygen类似，目标是简化视频制作过程，利用AI快速生成介绍视频。

非常逼真，口型无缝同步，有50多种不同的数字模型和多种的模板选择，以及支持75 种语言和方言。

初步测试下来，感觉效果和Heygen不相上下，编辑器用起来舒服。

以下是VEED AI Avatars的一些主要特性：多样化的AI角色：提供50+的数字角色，看起来自然、逼真且多样化。还可以定制角色。多语言支持：支持75+种语言，包括英语、西班牙语、法语、普通话、阿拉伯语等。模板：提供超多模板，可以用于培训和发展、市场推广演示、销售拓展和内部通信等。

全功能的视频编辑器：你可以在一个地方创建、录制、编辑和裁剪视频。你可以添加动画、应用过渡、选择背景、颜色、字体和图形。你还可以添加字幕、选择音乐或库存影片、从多个模板中选择，并使你的视频脱颖而出。

网址：https://www.veed.io

微软VALL-E

号称3秒克隆你的声音，它是第一个利用大量、多样化和多 speaker 语音数据的基于语言模型的 TTS 框架。

a neural codec language model for TTS

论文：https://arxiv.org/pdf/2301.02111.pdf
github：https://github.com/microsoft/unilm

2023/11/15最新消息发布：Personal Voice：

微软发布 Personal Voice：你可以克隆自己的声音说任何语言。

你只需要提供1分钟的语音样本，它就可以在几秒钟内克隆该样本语音，复制出一模一样的AI语音。

生成的AI语音支持中文、西班牙语、德语等多达100种不同语言的语音输出。

Personal Voice 使用设备端机器学习技术，确保用户信息私密安全，同时与 LiveSpeech 无缝集成，让用户可以在与其他人交流时使用 Personal Voice AI语音说话。

微软在生成的AI语音中增加了水印安全和认证措施。一种特殊的水印被添加到生成的语音中，以便用户和客户可以识别出语音是使用Azure AI Speech合成的，以及具体使用了哪种语音。
该功能将在西欧、美国东部和东南亚地区率先上线，并于 12 月 1 日上线公共预览版。

Dubbingai.io

Dubbing AI 是一个免费的实时 AI 语音变换工具，主要面向游戏玩家和在线直播者。

主要特点：

实时语音转换：能够在不到300毫秒的时间内将任何声音转换为高质量的克隆声音。

兼容多个游戏和应用：与所有主流游戏和程序兼容，如 CS:GO、Minecraft、Rust、LoL 等。

支持多种语言和表情：支持多语言，并能生成具有丰富情感表达的 AI 语音。

数据安全性：所有的语音生成过程都在用户的设备上完成，不涉及外部服务器，保证了数据安全。

低延迟和资源占用：相比其他 AI 语音变换工具，Dubbing AI 在 CPU 上的使用率较低，且不使用 GPU。

免费使用：Dubbing AI 提供免费下载，支持 Windows 和 macOS 平台。

开源

DreamTalk

DreamTalk：由清华大学、阿里巴巴和华中科大共同开发的一个基于Diffusion Probabilistic Models让人物头像说话的框架。

代码: https://github.com/ali-vilab/dreamtalk

模型地址: https://huggingface.co/damo-vilab/dreamtalk

项目及演示：https://dreamtalk-project.github.io

论文：https://arxiv.org/abs/2312.09767

视频生成 VGen GitHub：https://github.com/ali-vilab/i2vgen-xl

RealChar.ai

RealChar.ai:一站式个性化AI角色聊天方案:

聊天应答采用LLM OpenAI GPT3.5/4, Anthropic Claude2
模型编排：LlamaIndex, Chroma Vector DB,
语音识别采用 Whisper, Google Speech2Text
文本转语音采用 Elevenlabs Text2Speech Google text to Speech
语音克隆采用 Elevenlabs

它将各环节最领先的技术胶合在一起，相比闭源的 Call Annie，它开源得很彻底，连app客户端都开源。

github：https://github.com/Shaunwei/RealChar

SadTalker-Video-Lip-Sync

Based on SadTalkers, synthesizes lip shapes are more fluent, realistic and natural. 基于 SadTalkers 实现视频唇形合成的 Wav2lip，唇形更为流畅、真实、自然。

github：https://github.com/Zz-ww/SadTalker-Video-Lip-Sync

xtts-v2

这是一个声音克隆项目，只要几秒钟的音频样本就能创造出AI语音克隆。刚刚发布了XTTS v2，包括以下重要更新：

更出色的零样本克隆能力
可以用更多数据进行克隆
更加自然的语调和表达力
支持匈牙利语和韩语

github：https://github.com/coqui-ai/tts

huggingFace测试地址：https://huggingface.co/coqui/XTTS-v2

clone-voice

一个带web界面的声音克隆工具，使用你的音色或任意声音来录制音频

基于Coqui AI的TTS模型开发，可以把一个声音变成另一个声音
支持多种语言：包括中文、英文、日文、韩文、法文等16种语言。
简单易用：可以通过Web界面轻松操作，鼠标点点就行。
无需强大的电脑配置，没有N卡GPU也可以使用。- 支持在线从麦克风录制声音克隆，录音时长建议在5秒到20秒之间。

github：https://github.com/jianchang512/clone-voice

open-voice

就是那个推聊天机器人的公司——myshell.ai。

多功能即时语音克隆，具有准确的音色克隆、灵活的语音风格控制和零样本跨语言语音克隆的优势

网址：https://research.myshell.ai/open-voice

论文：https://arxiv.org/abs/2312.01479

github：https://github.com/myshell-ai/OpenVoice

VideoReTalking

腾讯AI工作室的开源项目，让视频中的人物的嘴型与输入的声音同步。目前开源里面应该是比较好的。

VideoReTalking：让视频中的人物的嘴型与输入的声音同步。你只需要输入任意一个视频和一个音频文件，它能给你生成一个新的视频，在这个视频里，人物的嘴型会与音频同步。 VideoReTalking不仅可以让嘴型与声音同步，还可以根据声音改变视频中人物的表情。

整个过程不需要用户干预，都是自动完成的。
工作流程：
整个系统的工作流程分为三个主要步骤：面部视频生成、音频驱动的嘴型同步和面部增强。所有这些步骤都是基于学习的方法，并且可以在一个顺序的流程中完成，无需用户干预。

1、面部视频生成：首先，系统会使用表情编辑网络来修改每一帧的表情，使其与一个标准表情模板相符，从而生成一个具有标准表情的视频。

2、音频驱动的嘴型同步：然后，这个视频和给定的音频一起被输入到嘴型同步网络中，生成一个嘴型与音频同步的视频。

3、面部增强：最后，系统通过身份感知的面部增强网络和后处理来提高合成面部的照片真实性。

该系统是使用 PyTorch 实现的，并且每个模块都是单独训练的。系统在 VoxCeleb 数据集上进行了训练。

VoxCeleb 是一个大型的、多样性丰富的说话头部视频数据集。这个数据集包含了 22,496 个不同身份和头部姿态的说话头部视频。选择这个数据集的目的是为了确保模型能够处理各种各样的说话头部视频。

通过这样详细和精细的训练过程，VideoReTalking 成功地实现了一个能够生成高质量、嘴型与音频同步的说话头部视频编辑系统。

项目及演示：https://opentalker.github.io/video-retalking/

论文：https://arxiv.org/abs/2211.14758

GitHub：https://github.com/OpenTalker/video-retalking

Colab在线体验：https://colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb

Wav2Lip

简单数字人视频创作工具链：

1、素材获取：Python爬虫
2、翻译：DeepL-Cli
3、文字转语音：edge-tts
4、图片和语音合成视频：SadTalker
5、台词对口型：Wav2Lip开源低精度模型
6、视频超分辨率：CodeFormer 全链开源，超低成本

github：https://github.com/Rudrabha/Wav2Lip

Mocking bird

特点：中文

支持普通话并使用多种中文数据集进行测试：aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等

PyTorch 适用于 pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU Tesla T4 和 GTX 2060

Windows + Linux 可在 Windows 操作系统和 linux 操作系统中运行（苹果系统M1版也有社区成功运行案例）

Easy & Awesome 仅需下载或新训练合成器（synthesizer）就有良好效果，复用预训练的编码器/声码器，或实时的HiFi-GAN作为vocoder

Webserver Ready 可伺服你的训练结果，供远程调用

github: https://github.com/babysor/MockingBird

Lalamu Studio Demo

可以轻松地使用AI创建口型同步视频，支持德语和英语

上传视频文件或使用模板，AI将自动调整口部动作以匹配音频。你也可以上传自己的音频文件来匹配。同时支持文本转语音功能，可以将文本转换为语音再匹配口型。
目前只是试用版，仅德语和英语的文本转语音功能。后面陆续将支持更多语言。

网址：https://lalamu.studio

Deepshot

对话生成和替换软件可以将视频中任意对话内容替换掉，并且保存口型和嘴唇完美契合，天衣无缝

Deepshot可以无缝集成到你现有的视频制作工作流程中。
在不离开平台的情况下生成、替换、审查和精炼对话。

网址：https://deepshot.ai

Imitator

使用语音作为输入来进行3D面部动画重建。

它能从一个短的输入视频中学习到目标演员的身份特定细节，捕捉他们的面部特点。然后你只需要给它一段该人物的音频信息，它就能根据该音频内容重新生成其3D面部动画，并且保持唇形完美匹配。

该工具的核心优势在于其能够生成与目标演员的个性和说话风格高度匹配的面部动画。

工作原理： Imitator的工作原理基于两个主要输入：音频序列和个性化风格嵌入。

1、音频序列处理：首先，Imitator接收一个音频序列作为输入。这个音频序列经过一系列的信号处理和特征提取步骤，以获取与面部动作相关的信息。

2、个性化风格嵌入：同时，Imitator还需要一个短的参考视频来计算个性化风格嵌入。这个嵌入是一个数学向量，它包含了目标演员的说话风格和面部特点。

3、合成面部动画：有了这两个输入后，Imitator使用一个先进的机器学习模型来合成面部动画。这个模型能生成特定于人的运动序列，并确保唇部在发出双唇辅音时能准确闭合。

Imitator的一项关键功能："生成具有准确唇闭合的人特定运动序列"。

这里的"人特定运动序列"是指为特定个体（如目标演员或用户）生成的面部动画。这些动画不仅反映了个体的说话风格和面部特点，还特别注意到了唇部的动作。

"准确唇闭合"是指在模拟发音，特别是双唇辅音（如'm'，‘b'，‘p'）时，动画中的唇部能准确地闭合。这增加了动画的真实性和可信度。

用通俗语言和举例来讲解就是：
简单来说，这就像是你有一个虚拟的双胞胎。这个双胞胎不仅能模仿你的说话风格和面部表情，还能在说某些字母或音节时，像你一样准确地闭合嘴巴。

比如，当你说"妈妈"这个词时，你的嘴巴会在发"妈"这个音时闭合。

Imitator能确保虚拟角色在说"妈妈"时，嘴巴也会像你一样准确地闭合。

这样做的好处是，生成的动画看起来更像是一个真人，而不是一个机械或不自然的模拟。
这在提高观众的沉浸感和接受度方面非常重要。

项目及演示：https://balamuruganthambiraja.github.io/Imitator/

论文：https://arxiv.org/abs/2301.00023

GitHub：https://github.com/bala1144/Imitator

Sync labs

同步器 API，允许用户将视频与任何语言的音频进行唇形同步。 Sync. labs 创始人

展示了一段《角斗士》视中角色无缝转换印地语、中文、西班牙语和日语的频。

该视频使用了他们的同步器 API，该 API 允许用户将视频与任何语言的音频进行唇形同步。

他表示如果有人对此感兴趣，他们可以以成本价（每分钟1美元）邀请进行 beta 测试。

网友评价：还比较糙

SoftVC VITS Singing Voice Conversion

歌声音色转换模型，通过 SoftVC 内容编码器提取源音频语音特征，与 F0 同时输入 VITS 替换原本的文本输入达到歌声转换的效果。同时，更换声码器为 NSF HiFiGAN 解决断音问题。

github:https://github.com/svc-develop-team/so-vits-svc

感受

相比"AI换头"比较假，语音克隆的"正面"意义可能会更好，前景广阔，举些例子：

一个普通人在直播间直播，如果能同时用中英日法德多国中文进行全球直播，音色完全一致，口型也对的上，全世界的人哪怕文盲都能看懂，语言不再成为障碍，受众和影响力可能成倍增加。未来可能成为几个头部短视频直播app的标配；如果实时直播有难度，在各种网剧里面肯定也有公司第一个尝鲜；
每个人的音色都是独一无二的，克隆工具平民化后，二次创作肯定会有无数新玩法，像开头提到的孙燕姿AI就可以造福广大乐迷，听书迷们也可能"请"老一辈评书演播大师播讲自己喜欢的书；
个性化声音是数字人的极其重要的一部分。哪怕只是一个普通人，只要留下其足够的音视频资料，未来在声音(甚至视频)上完全永生一个人是可行的。