当前位置:首页 > 技术分析 > 正文内容

7K Star 开箱即用!阿里多语言语音生成模型2.0上线还支持了方言。

ruisui884个月前 (02-16)技术分析26

近年来,人工智能技术在各个领域都取得了令人瞩目的成果,其中,AI语音合成技术更是备受关注。

生活中也处处得见,像配音、解说、音乐等领域都有它的身影。

阿里早在7月就开源过一个语音大模型项目:FunAudioLLM,而它一次性包含了两个模型:SenseVoice(语音识别)CosyVoice(语音生成)

而今天我想要介绍的是专注于语音生成的 CosyVoice

因为它刚刚升级到了2.0版本,较1.0版本效果显著。

在介绍2.0版本亮点之前,我们先来看看 CosyVoice 的基本特性。

项目简介

CosyVoice 是阿里开源的一款创新的多语言、情感丰富的语音生成大模型,旨在通过先进的 AI 技术生成自然且富有情感的语音。

无论是在语音生成的质量,还是在细节控制的精准度上,CosyVoice 都表现卓越,能够应对零样本语音生成、跨语言声音合成以及指令执行等多种任务。

仅需要3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。

可以生成与特定特征匹配的语音,比如性别、年龄和个性等。还可以模仿非常自然的人类语音,包括笑声、咳嗽和呼吸。

核心特点

  • 多语言支持:支持包括 中文、英文、日语、粤语和韩语 在内的 5种主要语言。
  • 零样本语音克隆:只需 3~10秒的音频样本,即可准确模拟目标声音。
  • 精细化情感和风格控制:允许用户通过 文本指令 来精确控制生成语音的情感、语速、音高、音色等多维度的特征。
  • 跨语种语音生成:支持 跨语种语音生成,能够从一种语言的音频样本生成另一种语言的语音。
  • 语音生成与指令执行集成:CosyVoice 可以与开源大模型结合,支持 实时语音交互 和 语音翻译。

CosyVoice V2.0升级亮点

2.0 版本,带来了更加精准、自然且富有情感的语音生成体验!

  • 发音准确度大幅提升:发音错误减少 30%-50%,让语音生成更加清晰、准确。
  • 音质提升:音质 MOS(Mean Opinion Score)评分从 5.4 提升至 5.53。
  • 超低延迟:150ms 超低首包延迟,确保语音生成过程更加流畅,适合实时语音交互和在线语音翻译。
  • 方言和口音调整:支持更细致的方言和口音调整,使生成的语音更加贴合目标地区的发音习惯。
  • 更细粒度的情感控制:如愉悦、悲伤、激动等,可生成更具表现力的语音。

快速使用

CosyVoice的安装和使用同大多数开源项目无差。

最简单的当然是官方Demo直接用了

其次是用户根据官方文档进行操作,在本地或服务器上部署项目,下载模型。

具体步骤如下:

①克隆项目

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# If you failed to clone submodule due to network failures, please run following command until success
cd CosyVoice
git submodule update --init --recursive

②创建虚拟环境,安装依赖

conda create -n cosyvoice python=3.10
conda activate cosyvoice
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# If you encounter sox compatibility issues
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel

③模型下载

# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

④配置环境变量

export PYTHONPATH=third_party/Matcha-TTS

⑤调用示例

from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=True, load_onnx=False, load_trt=False)

# NOTE if you want to reproduce the results on https://funaudiollm.github.io/cosyvoice2, please add text_frontend=False during inference
# zero_shot usage
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

# fine grained control, for supported control, check cosyvoice/tokenizer/tokenizer.py#L248
for i, j in enumerate(cosyvoice.inference_cross_lingual('在他讲述那个荒诞故事的过程中,他突然[laughter]停下来,因为他自己也被逗笑了[laughter]。', prompt_speech_16k, stream=False)):
    torchaudio.save('fine_grained_control_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

# instruct usage
for i, j in enumerate(cosyvoice.inference_instruct2('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '用四川话说这句话', prompt_speech_16k, stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

写在最后

CosyVoice 是一款领先的多语言、情感控制的语音生成大模型,它不仅能在多种语言和情感下生成自然的语音,还能通过简单的音频样本进行说话人声音克隆,提供精准的音色和情感调控。

随着 AI 语音生成技术的进步,CosyVoice 不仅为开发者提供了一个强大的工具,也为语音交互和多语言应用打开了新的可能性。

模型:
https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

GitHub:https://github.com/FunAudioLLM/

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/2000.html

标签: gitsubmodule
分享给朋友:

“7K Star 开箱即用!阿里多语言语音生成模型2.0上线还支持了方言。” 的相关文章

医疗养老收费管理系统

医疗养老收费管理系统headerfooter《医疗养老收费管理系统》是最新开发的适用于养老保险收费行业的管理系统。主要功能:1.基本信息:单位设置、缴费基数、缴费比例和队别设置;2.医疗保险管理:医疗保险人员信息、医疗保险收费、医疗保险信息查询、医疗保险收费查询、医疗保险收费情况;3.养老保险信息:...

vue3中父子传值、defineProps用法、defineEmits用法

Vue3中新增了一个 script setup 语法糖模式,可以在单文件组件中更简洁地编写组件逻辑。使用 script setup 语法后,props、data、computed、methods 等选项不再需要独立定义,而是可以直接在 setup 函数中声明,代码结构更加清晰,并且可以更方便地使用响...

Python 幕后:Python导入import的工作原理

更多互联网精彩资讯、工作效率提升关注【飞鱼在浪屿】(日更新)Python 最容易被误解的方面其中之一是import。Python 导入系统不仅看起来很复杂。因此,即使文档非常好,它也不能让您全面了解正在发生的事情。唯一方法是研究 Python 执行 import 语句时幕后发生的事情。注意:在这篇文...

7 招教你轻松搭建以图搜图系统

作者 | 小龙责编 | 胡巍巍当您听到“以图搜图”时,是否首先想到了百度、Google 等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到库中进行搜索,并得到与其相似的若干图片。Milvus 作为一款针对海量特征向量的相似性检索引擎,旨在...

HTML5学习笔记三:HTML5语法规则

1.标签要小写2.属性值可加可不加””或”3.可以省略某些标签 html body head tbody4.可以省略某些结束标签 tr td li例:显示效果:5.单标签不用加结束标签img input6.废除的标签font center big7.新添加的标签将在下一HTML5学习笔记中重点阐述。...

再来一波黑科技工具,低调使用

静读天下静读天下是一个特别优秀的电子书阅读器。它上面有多个在线书库,像古登堡计划,很多种优秀的书杂志,都可以下载来阅读。它还能智能识别章节功能,还支持外置的语音阅读功能。它支持多种文本格式,比如说txt,pdf,epub,mobi等等。为了便于阅读它还有10 种配色方式,还有夜间模式。不过免费版有广...