超10000颗星,被使用数千万次!清华、麻省理工开源语音克隆

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

麻省理工、清华大学和MyShell.ai的研究人员,联合开源了一款语音克隆产品——OpenVoice。

用户仅需要提供一段很短的原版语音,通过OpenVoice就能进行克隆,并生成全新的语音片段。例如,输入一段孙悟空的配音,就能按照其特色生成新的音频。

同时可以控制语音的情感、口音、节奏、停顿和语调等,整体复制性能非常强劲。

目前,OpenVoice在Github超过11,000颗星,仅一周的时间就增加了10,000多颗星,成为霸榜开源产品

研究人员表示,在此次公开发布之前, OpenVoice 的内部版本在 2023 年 5 月至 10 月期间,已被全球用户使用了数千万次。为MyShell.ai 的实时语音克隆提供技术支持,帮助其实现数百倍的用户增长。

其实从名字也能看的出来,OpenVoice想要做语音界的“OpenAI”。

开源地址:https://github.com/myshell-ai/OpenVoice?tab=readme-ov-file

论文地址:https://arxiv.org/abs/2312.01479

更多demo展示:https://research.myshell.ai/open-voice

超10000颗星,被使用数千万次!清华、麻省理工开源语音克隆插图

目前,在语音合成领域有很多类似的产品,例如,Amazon Polly、Acapela Group、Responsive Voice等,但是他们在合成的过程中经常会出现破音、机器感、特征不明显等缺点。

这主要有3个原因:1)语音风格可控性差。目前所有商用语音合成系统生成的语音都枯燥单一,无法实现像人类一样丰富多变的语调语气,极大限制了语音技术在情感交互等领域的应用。

2)无法实现跨语言的语音克隆。现有技术需要大量目标语种的数据进行训练,无法像人类一样快速适应不同语言,使得语音交互类产品面临沉重的开发和运营成本。

3)语音合成效率偏低。目前的商用语音API生成1秒语音,则需要数秒时间,无法实现实时交互,增加了用户的使用成本。

OpenVoice效果展示

而OpenVoice是专门针对上述3个痛点开发的语音合成产品,其核心技术思路非常简单、高效,就是将语音合成流程,拆解成语音内容生成和语音风格控制两大模块。

语音内容生成

OpenVoice使用了TTS(文本转语音)作为基础模型,采用序列到序列的结构,使输入文字后可以生成不同语种、语调的语音内容。

超10000颗星,被使用数千万次!清华、麻省理工开源语音克隆插图1

该模块包含编码器、解码器等子模块。编码器负责分析文本语义,输出语音内容特征;解码器则基于语音内容特征,合成语音波形。

此外,研究人员使用了包含10万句多语种、语音的数据集训练了该模块。使其学会自动控制语音的语种、语调等参数,使得合成语音的内容自然逼真,能完美还原用户输入的原语音。

语音风格控制

语音风格控制的作用是,可以将任意风格语音转换为克隆目标声音。

语音风格控制主要包含编码器、流模型和解码器三个组件。编码器,用于分析输入语音,提取语音风格特征;

超10000颗星,被使用数千万次!清华、麻省理工开源语音克隆插图2

流模型消除原语音风格,仅保留内容信息;在解码生成阶段,流模型引入目标语音风格特征,输出转换后的语音内容。

OpenVoice通过上述两个模块分工执行,这种先分离然后结合的思路大大幅降低了语音风格克隆的难度,同时轻松实现不同语种的转换生成。

OpenVoice技术特点

灵活的语音风格控制:OpenVoice能够精确控制语音风格,包括情感、口音、节奏、停顿和语调,同时还能复制参考说话者的音色。

与传统方法相比,OpenVoice可以在克隆语音后,灵活操控语音风格的能力。

零样本跨语言语音克隆:OpenVoice技术能够在没有大量特定语言训练数据的情况下,实现对新语言的零样本语音克隆。

与传统需要多语言数据集的方法不同,OpenVoice能够克隆那些未包含在说话者训练集的语言。

语音合成效率高:OpenVoice具备高效的生成能力,成本只有商业API的十分之一,而且效率更高可实时交互。

本文素材来源OpenVoice论文,如有侵权请联系删除

END

超10000颗星,被使用数千万次!清华、麻省理工开源语音克隆插图3

本篇文章来源于微信公众号: AIGC开放社区