返回

阿里通义实验室语音生成大模型CosyVoice升级2.0版本

2024-12-16内容来源AIbase基地

阿里巴巴通义实验室语音团队宣布,其开源的语音生成大模型CosyVoice已升级至2.0版本,这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术,实现了双向流式语音合成,首包合成延迟可达到150ms,显著提升了语音合成的响应速度。

最低的字错误率,尤其在合成绕口令、多音字、生僻字方面表现出色。此外,2.0版本在零样本语音生成和跨语言语音合成上保持了音色一致性,特别是跨语言语音合成能力相较于1.0版本有了明显提升。

CosyVoice2.0在合成音频的韵律、音质、情感匹配方面也有所增强,MOS评测分从5.4提升至5.53,接近某商业化语音合成大模型的评分。同时,2.0版本支持更多细粒度的情感控制和方言口音控制,为用户提供了更丰富的语言选择,包括粤语、四川话、郑州话、天津话和长沙话等主要方言,以及角色扮演功能,如模仿机器人、小猪佩奇的风格讲话等。

CosyVoice2.0的升级,不仅提升了语音合成的技术和体验,也进一步推动了开源社区的发展,鼓励更多的开发者参与到语音处理技术的创新和应用中来。


电脑版

综合新闻

猜你感兴趣

  • 磁力宝
    磁力宝
    磁力吧 资源搜索引擎 磁力搜索
  • 非小号
    非小号
  • 深圳控股
    深圳控股
    房地产上市公司
  • 悦西安
    悦西安
    西安城市形象与建筑、商业讨论平台
  • 内蒙古人事考试网
    内蒙古人事考试网
    内蒙古求职招聘网站
  • 嘉兴19楼
    嘉兴19楼
    十九楼网络股份有限公司 找对象 办婚礼 搞装修 聊育儿
  • 谷粉学术
    谷粉学术
    谷歌学术
  • 华润电力
    华润电力
    华润电力门户官网 华润电力控股有限公司
  • 鸠摩搜书
    鸠摩搜书
    文档搜索引擎 鸠摩搜索 Jiumo Search 电子书
  • 觅知网
    觅知网
    版权图片素材网站
  • 大家都在看

  • 微众银行
    微众银行
    腾讯牵头发起设立的首家民营银行
  • 四轴转台维修
    四轴转台维修
  • Liking健身
    Liking健身
    24小时智能互联网健身房
  • 汉堡港
    汉堡港
    德国第一大港口 汉堡港营销协会
  • 中国极限运动协会
    中国极限运动协会
    CESA 非营利性社会组织