超10000颗星，被使用数千万次！清华、麻省理工开源语音克隆

添加书签

AIGC开放社区
2024-01-13

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

麻省理工、清华大学和MyShell.ai的研究人员，联合开源了一款语音克隆产品——OpenVoice。

用户仅需要提供一段很短的原版语音，通过OpenVoice就能进行克隆，并生成全新的语音片段。例如，输入一段孙悟空的配音，就能按照其特色生成新的音频。

同时可以控制语音的情感、口音、节奏、停顿和语调等，整体复制性能非常强劲。

目前，OpenVoice在Github超过11,000颗星，仅一周的时间就增加了10,000多颗星，成为霸榜开源产品。

研究人员表示，在此次公开发布之前， OpenVoice 的内部版本在 2023 年 5 月至 10 月期间，已被全球用户使用了数千万次。为MyShell.ai 的实时语音克隆提供技术支持，帮助其实现数百倍的用户增长。

其实从名字也能看的出来，OpenVoice想要做语音界的“OpenAI”。

开源地址：https://github.com/myshell-ai/OpenVoice?tab=readme-ov-file

论文地址：https://arxiv.org/abs/2312.01479

更多demo展示：https://research.myshell.ai/open-voice

目前，在语音合成领域有很多类似的产品，例如，Amazon Polly、Acapela Group、Responsive Voice等，但是他们在合成的过程中经常会出现破音、机器感、特征不明显等缺点。

这主要有3个原因：1）语音风格可控性差。目前所有商用语音合成系统生成的语音都枯燥单一,无法实现像人类一样丰富多变的语调语气，极大限制了语音技术在情感交互等领域的应用。

2）无法实现跨语言的语音克隆。现有技术需要大量目标语种的数据进行训练,无法像人类一样快速适应不同语言，使得语音交互类产品面临沉重的开发和运营成本。

3）语音合成效率偏低。目前的商用语音API生成1秒语音，则需要数秒时间,无法实现实时交互,增加了用户的使用成本。

OpenVoice效果展示

而OpenVoice是专门针对上述3个痛点开发的语音合成产品，其核心技术思路非常简单、高效，就是将语音合成流程，拆解成语音内容生成和语音风格控制两大模块。

语音内容生成

OpenVoice使用了TTS（文本转语音）作为基础模型，采用序列到序列的结构,使输入文字后可以生成不同语种、语调的语音内容。

该模块包含编码器、解码器等子模块。编码器负责分析文本语义,输出语音内容特征；解码器则基于语音内容特征,合成语音波形。

此外，研究人员使用了包含10万句多语种、语音的数据集训练了该模块。使其学会自动控制语音的语种、语调等参数，使得合成语音的内容自然逼真，能完美还原用户输入的原语音。

语音风格控制

语音风格控制的作用是，可以将任意风格语音转换为克隆目标声音。

语音风格控制主要包含编码器、流模型和解码器三个组件。编码器，用于分析输入语音,提取语音风格特征；

流模型消除原语音风格,仅保留内容信息；在解码生成阶段,流模型引入目标语音风格特征,输出转换后的语音内容。

OpenVoice通过上述两个模块分工执行，这种先分离然后结合的思路大大幅降低了语音风格克隆的难度，同时轻松实现不同语种的转换生成。

OpenVoice技术特点

灵活的语音风格控制：OpenVoice能够精确控制语音风格，包括情感、口音、节奏、停顿和语调，同时还能复制参考说话者的音色。

与传统方法相比，OpenVoice可以在克隆语音后，灵活操控语音风格的能力。

零样本跨语言语音克隆：OpenVoice技术能够在没有大量特定语言训练数据的情况下，实现对新语言的零样本语音克隆。

与传统需要多语言数据集的方法不同，OpenVoice能够克隆那些未包含在说话者训练集的语言。

语音合成效率高：OpenVoice具备高效的生成能力，成本只有商业API的十分之一，而且效率更高可实时交互。

本文素材来源OpenVoice论文，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

超10000颗星，被使用数千万次！清华、麻省理工开源语音克隆

即将举行的活动

联系我们

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区

超10000颗星，被使用数千万次！清华、麻省理工开源语音克隆

即将举行的活动

联系我们

订阅我们的免费咨讯

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区