来源:搜你想要的 点击数: 时间:03-19
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。
近日,全球语音、声学顶级会议ICASSP 2023公布了论文入选名单,网易互娱AI Lab一篇学术论文被接收,概述如下。
论文标题:NSV-TTS: NON-SPEECH VOCALIZATION MODELING AND TRANSFER IN EMOTIONAL TEXT-TO-SPEECH
作者:Haitong Zhang,Xinyuan Yu, Yue Lin
业务应用:合成情感语气词,提升情感语音合成的拟人度。
近年来,文本转语音的合成技术已经有显著的发展,合成的语音已经可以有不同情感。但是目前主要的应用和研究还是集中在文字上,忽略了非语音化的发声(Non-speech Vocalization,以下简称NSV),比如哭,笑,咳嗽等声音。这些NSV有强化情感表达的作用,使得语音更具拟人度。针对此问题,该论文提出了一个情感语音合成的模型(叫做NSV-TTS),能够对NSV进行建模和零样本迁移。最终,我们的实验表明:引入自监督的语言单元进行建模不但不会影响原本情感语音合成的整体效果,还能够有效地实现零样本NSV迁移。
模型设计如下图所示:
NSV的建模的困难在于:NSV(比如哭和笑)都是夹杂在其它语音中,传统的建模需要大量人工标注;零样本迁移是指:使用没有录制过NSV声优的声音来合成NSV,该任务本身也极具挑战性。对此,我们提出了以下创新来解决这两个难点。
创新1:该模型采用了自监督学习的模型HuBERT对语音进行自动标注。 使用这种自监督的语言单元能有效解决标注的困难,同时,因为这种自监督的语言单元比音素的颗粒度更细,有益于实现零样本NSV的迁移。
创新2:在模型训练阶段,我们使用音素序列或者自监督的语言单元序列作为建模单元,然而在测试阶段,我们需要使用自监督的语言单元和音素的混合序列,因此会产生训练和测试不匹配的问题。为了减少该问题带来的负面影响,我们提出了单元混合(token mixing)和动态随机掩码(dynamic random mask)的机制,通过在训练的时候动态对部分语音进行掩码,再对该部分语音用对应自监督的语言单元表示,其余部分使用音素表示。这样,我们就可以使得训练阶段和测试阶段的建模序列变成一致了。该部分算法的伪代码如下图:
网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。
广告推介
最新发布
- 女模拍卖初夜得1694万元,让男朋友夺走不如狠捞一笔
- 韩媒:韩国拟用机器人取代前线巡逻哨兵
- 秦时明月第四部小说(秦时明月第四部小说叫什么)
- 总-的人民情怀 - 从“向往”到“七有”,读懂总-的民生牵挂
- 消费曝光台|11岁男孩游戏充值八千多,欢太科技:会全力处理
- 光弘科技、华海清科等共设私募公司 注册资本超16亿
- 27℃!北京气温“狂飙”暖破纪录 明日寒潮来袭最高温将暴跌
- 张艺谋电影《满江红》香港遇冷,邪教式黑粉与流氓网红大V难辞其咎
- -快讯 - 全国-代表、上汽集团零束科技堂委副-刘懿艳:建议出台大家层面智能网联汽车人才培养及发展规划
- 新征程新奋斗|走出山村的80后女科学家竺淑佳:研究是为了帮助更多人_1
图文信息
最新视频
- 百度发布的是“文心一言”还是“温馨遗言”?
- [浦东]上海戏剧学院附属浦东新世界实验小学-正是和风丽日 几许盎然生机——欢迎来自江苏宿迁和贵阳的领导、教师们莅临学校参访
- “奋斗有我 国聘行动”湖北专场启动 名企进校园开展巡讲
- 工业富联:GPT-4对算力要求更高,对AI服务器增长有正面助力
- 土耳其决定开始启动批准芬兰加入北约相关程序_1
- 厄瓜多尔突发6.8级地震 致至少14人遇难
热门事件
- 西子洁能:供核工业的设备是在崇贤工厂生产
- 牛市早报|新一届庭院开始全面履职,GPT-4重磅发布
- 央视“3·15”晚会点名当晚,合肥淮南广州深圳等相关部门已介入调查_2
- 科学采取措施 三千余尾搁浅江鱼被成功放归长江_2
- 因时而变 “减编”之后怎么办
- 国投集团与中国中铁签署战略合作框架协议