专利名称:基于说话人风格特征建模的多对多语音转换方法及
系统
专利类型:发明专利发明人:李燕萍,张成飞申请号:CN202010488776.8申请日:20200602公开号:CN111816156A公开日:20201023
摘要:本发明公开了一种基于说话人风格特征建模的多对多语音转换方法及系统,首先提出在StarGAN神经网络中添加多层感知器和风格编码器,实现对说话人风格特征的有效提取和约束,克服了传统模型中one‑hot向量携带说话人信息有限的缺点;接着采用自适应实例归一化方法实现语义特征和说话人个性特征的充分融合,使得网络可以学习到更多的语义信息与说话人个性信息;进一步在生成器残差网络中引入一种轻量级的网络模块SKNet,使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小,并通过注意力机制调节每个特征通道的权重,增强对频谱特征的学习能力,细化频谱特征细节。
申请人:南京邮电大学
地址:210012 江苏省南京市雨花台区软件大道186号
国籍:CN
代理机构:南京苏高专利商标事务所(普通合伙)
代理人:王恒静
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务