中国首个音频生成类大模型通过备案

2024-09-20 16:45:53 凤凰网 

凤凰网科技讯 9月20日,近日,上海网信办发布的最新一批上海市生成式大模型备案通过名单中,喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型共同通过了备案,成为全国首个通过网信办生成式人工智能服务的音频生成类大模型。

喜马拉雅音频大模型是全球首个第四代多情感演绎、超自然表达的音频生成大模型。该模型将会引领整个音频行业AIGC从第三代音频生成模型向第四代音频生成大模型的演化发展。

喜马拉雅音频模型是珠峰AI团队基于自研文本音频联合建模的LLM框架,在同一空间向量表征下实现音频与文本的联合建模训练。这种联合建模的方法充分赋予了音频生成任务以强大的语义信息,并充分利用它们之间的内在联系和互补信息,大幅度提高模型的性能和泛化能力,这也是第四代音频大模型超越上一代的核心技术突破。

在训练过程中,喜马拉雅珠峰AI首先将音频数据和文本数据分别进行预处理,将它们转化为适合模型输入的 token 形式,并将音频 token 和文本 token 映射到同一空间向量表征中,使得模型能够更好地理解和处理音频和文本之间的关系。整体训练流程包括预训练(Pretraining)、有监督微调(SFT)、领域有监督微调(Domain SFT)、说话人有监督微调(Speaker SFT)、强化学习(RL)几个主要流程。通过这几个流程的训练,使模型具备以下特点:(1)15s音色克隆能力和声音转换能力。(2)超拟人、多情感、对齐人类偏好的语音生成。(3)高可控风格和副语言能力。

喜马拉雅珠峰AI研发团队对训练好的模型进行评估,在长音频内容如有声小说的场景下,角色演绎风格的可控性、音素表现的稳定性、语流韵律停顿等的自然度上显著高于国内外第三代音频生成模型。

喜马拉雅音频大模型践行“产模结合”的范式,通过模型结合产业形成业务、数据、算法的正反馈循环。其在AIGC有声书、Chat对话式交互等业务场景上广泛使用,诸如最近爆火的有声书《我的阿勒泰》就是由喜马拉雅音频大模型生成的。喜马拉雅珠峰AI表示,音频大模型能力已经在珠峰AI官网上可以直接体验使用了,用户可以直接创作自己的音频内容。

(责任编辑:张晓波 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读