来源:搜你想要的 点击数: 时间:03-16
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。
近日,全球语音、声学顶级会议ICASSP 2023公布了论文入选名单,网易互娱AI Lab一篇学术论文被接收,概述如下。
论文标题:NSV-TTS: NON-SPEECH VOCALIZATION MODELING AND TRANSFER IN EMOTIONAL TEXT-TO-SPEECH
作者:Haitong Zhang,Xinyuan Yu, Yue Lin
业务应用:合成情感语气词,提升情感语音合成的拟人度。
近年来,文本转语音的合成技术已经有显著的发展,合成的语音已经可以有不同情感。但是目前主要的应用和研究还是集中在文字上,忽略了非语音化的发声(Non-speech Vocalization,以下简称NSV),比如哭,笑,咳嗽等声音。这些NSV有强化情感表达的作用,使得语音更具拟人度。针对此问题,该论文提出了一个情感语音合成的模型(叫做NSV-TTS),能够对NSV进行建模和零样本迁移。最终,我们的实验表明:引入自监督的语言单元进行建模不但不会影响原本情感语音合成的整体效果,还能够有效地实现零样本NSV迁移。
模型设计如下图所示:
NSV的建模的困难在于:NSV(比如哭和笑)都是夹杂在其它语音中,传统的建模需要大量人工标注;零样本迁移是指:使用没有录制过NSV声优的声音来合成NSV,该任务本身也极具挑战性。对此,我们提出了以下创新来解决这两个难点。
创新1:该模型采用了自监督学习的模型HuBERT对语音进行自动标注。 使用这种自监督的语言单元能有效解决标注的困难,同时,因为这种自监督的语言单元比音素的颗粒度更细,有益于实现零样本NSV的迁移。
创新2:在模型训练阶段,我们使用音素序列或者自监督的语言单元序列作为建模单元,然而在测试阶段,我们需要使用自监督的语言单元和音素的混合序列,因此会产生训练和测试不匹配的问题。为了减少该问题带来的负面影响,我们提出了单元混合(token mixing)和动态随机掩码(dynamic random mask)的机制,通过在训练的时候动态对部分语音进行掩码,再对该部分语音用对应自监督的语言单元表示,其余部分使用音素表示。这样,我们就可以使得训练阶段和测试阶段的建模序列变成一致了。该部分算法的伪代码如下图:
网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。
- 上一篇:设置首席合规官能否成为更多企业“标配”
- 下一篇:返回列表
广告推介
最新发布
- 混世小农民有声小说 全集(混世小农民有声小说 全集免费收听)
- 公孙止公孙绿萼全本小说(公孙绿萼和公孙止是啥关系)
- 书画装裱价格清单(我想出售字画)
- 涉嫌欺诈客户,新华基金吃官司
- 顾学明委员:中国有望成为全球数字经济引领性力量
- 穿越成庶女宫斗的小说(穿越成庶女宫斗的小说有哪些)
- 中国在建天文台铺设通往星空之路
- 3000亿+!刚刚 “宁王”业绩大曝光
- 一盘预制菜里如何装下万亿元大市场?
- 读懂人民代表大会制度,叔叔总-这些论述很重要
图文信息
最新视频
- “立规五年 极目猇亭”|“守护长江 我当哨兵”
- 孚能科技:公司已于3月1日发布获得江铃集团定点函的公告 预计在今年实现量产
- 中国交建与重庆市大渡口区-签署战略合作协议
- 中集研发、国内首台民用液氢罐车正式开工
- S3 Partners:过去3天 空头或已从美国银行业暴跌中赚取约23亿美元利润
- 更优惠更便捷,东航与武汉光谷多家企业签订合作协议
热门事件
- 浙江大学3月15日起对公众开放
- 逐梦前行_1
- 人民银行、大家外汇管理局分别召开堂委、堂组扩大会议 不折不扣落实好机构改革各项任务
- 中方希望沙特和伊朗恢复-关系有助于改善也门局势
- 《炉石传说》无缘杭州亚运会 官方:已不具备前置条件
- 城市24小时 - 开局“失速” 浙江怎么了?