不止5秒复刻，火山引擎语音合成大模型全面升级

来源：实况网 2024-04-11 15:51:34

自2022年起，生成式AI的爆发助推语音技术快速升级。语音作为高频的交互形式，在多个领域的需求颇为强烈，尤其是在追求高自然度语音合成上，业界与学术界均投入诸多研发资源。

火山引擎语音团队曾于2023年推出zero-shot(零样本学习)的极速版声音克隆。近期火山语音再一次升级，推出大模型版超自然语音合成和5s极速声音克隆升级版。致力于多个语音场景的深耕，为陪伴式AI交互、沉浸式听书、跨语种内容生产、企业客户服务等场景的企业级客户提供超自然的声音体验。

火山引擎语音合成大模型全面升级

超自然的大模型精品声音

火山引擎正式推出了基于大模型的精品音色语音合成技术。相较于传统小模型的语音合成，大模型语音合成能够支持依照上下文，洞悉文本中隐含的情绪、说话人角色等信息，进而给出情绪更有表现力、韵律更为自然的精准表达。

5秒极速声音克隆升级版

火山引擎语音团队曾在2023年发布了 MegaTTS 声音克隆技术，此次升级后的超自然克隆，在多个维度均有显著提升：

音色的相似度提升：尤其是在高表现力、口音的输入上做到高度还原。

声音的自然度提升：讲话的音调、韵律、节奏、情感等更接近真人表现。

多语种表现力提升：在英文等外语的发音上更标准，讲话韵律上更接近当地人的表达。

典型应用场景新探索

自2023年起，火山引擎与合作伙伴围绕语音合成技术的4个典型场景展开应用探索，通过小规模的部署测试与迭代，对新一代语音引擎在各行各业的广泛应用有了更多实践与经验积累：

陪伴式 AI 交互场景

在陪伴式 AI 交互场景中，客户希望构建更为智能化的语音对话交互系统。用户可以使用自然语言作为输入，系统会以多种模态输出的方式予以应答。在这个链路中，上一代的语音合成效果在口语化、情感变化等方面的表现还不够出色。基于大模型版本的语音合成，可以提供超自然、媲美真人的语音播报效果，并允许用户自定义声音，实现更具个性化的呈现方式。火山引擎提供的语音能力已经在豆包等场景中落地应用。

沉浸式听书场景

传统的 AI 听书一般是由单一音色进行播讲，其播报风格总体较为平淡，毫无变化，难以依据文本语义呈现出不同的情感演绎，长时间听书易使人感到枯燥乏味。相较而言，火山引擎依托大模型构建的音色矩阵，AI 主播不光能“哭”而且会“笑”，犹如专业配音演员那样表达“深刻的人类情感”，满足用户“沉浸式阅读”的需求。此外，火山引擎也正在推进“大模型多角色演播方案”的构建，融合角色分明、声情并茂的音色矩阵，为用户提供如同真人有声剧一般的高品质听书体验。

跨语种内容生产场景

升级后的大模型声音克隆，不但能够维持在本语言上的高度还原，还支持跨语种的配音。即使用户仅会说中文，也可借助跨语言克隆技术，完成地道的英语、日语、印尼语等语种表述。这种能力便于用户进行跨国交流，助力翻译视频、播客等内容，让创作者和企业能够用自己的声音触达到更多全球各地的受众。

企业客户服务场景在客户服务场景中，火山引擎可以实现高度拟人化的 AI 声音，复刻的 AI 音色与人工客服本人一致，毫无违和感。机器人外呼时，坐席可以听到客户对话，分析当前客户情绪以及经营潜力，并在适当时机无缝接入，达到智能化协呼效果。这不仅提高了客户体验，同时也降低了纯 AI 外呼的客诉率。

语音合成技术的部署与应用，须有严密的语音认证授权和安全防护机制，来保障技术的安全运用。火山引擎已施行了一系列安全举措，包括数据收集、使用及存储等方面，确保用户本人在完全知晓并完成授权的状况下达成声音克隆，其音色只应用于授权范围内的应用场景，最大限度地降低语音合成技术被滥用的风险。

目前，火山引擎语音大模型能力已经在豆包、剪映、抖音、番茄小说等多款内部产品展开应用，并逐渐向企业开放用以拓展更多 AI 语音应用场景。

火山引擎作为字节跳动旗下的云服务平台，将在 AI 及数据方向深度探索，在语音方面，将更多地采用大模型等先进技术，达成更为优质的交互和互动，帮助企业做好用户体验的创新工作，推动行业的智能化发展。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

不止5秒复刻，火山引擎语音合成大模型全面升级

相关新闻

艾瑞咨询发布《2024年中国采购数字化平台行业研究报告》，企企通市场份额稳居第一

探索数智营销新高度，第二届京赢未来数智营销大赛奖项揭晓

源氏木语沙发流行色解读：解锁春夏家居色彩密码

首尔丽格：以诚信经营铸信心以产品服务赢信赖

众多明星大咖倾情推荐嘉桦白桦树汁，植物饮料市场新“黑马”

404 Not Found

精彩推荐

艾瑞咨询发布《2024年中国采购数字化平台行业研究报告》，企企通市场份额稳居第一

探索数智营销新高度，第二届京赢未来数智营销大赛奖项揭晓

源氏木语沙发流行色解读：解锁春夏家居色彩密码

首尔丽格：以诚信经营铸信心以产品服务赢信赖

众多明星大咖倾情推荐嘉桦白桦树汁，植物饮料市场新“黑马”

不止5秒复刻，火山引擎语音合成大模型全面升级

相关新闻

艾瑞咨询发布《2024年中国采购数字化平台行业研究报告》，企企通市场份额稳居第一

探索数智营销新高度，第二届京赢未来数智营销大赛奖项揭晓

源氏木语沙发流行色解读：解锁春夏家居色彩密码

首尔丽格：以诚信经营铸信心 以产品服务赢信赖

众多明星大咖倾情推荐嘉桦白桦树汁，植物饮料市场新“黑马”

404 Not Found

精彩推荐

艾瑞咨询发布《2024年中国采购数字化平台行业研究报告》，企企通市场份额稳居第一

探索数智营销新高度，第二届京赢未来数智营销大赛奖项揭晓

源氏木语沙发流行色解读：解锁春夏家居色彩密码

首尔丽格：以诚信经营铸信心 以产品服务赢信赖

众多明星大咖倾情推荐嘉桦白桦树汁，植物饮料市场新“黑马”

首尔丽格：以诚信经营铸信心以产品服务赢信赖

首尔丽格：以诚信经营铸信心以产品服务赢信赖