三星电子推出X-net架构用于语音通话

皇甫端
• 阅读 1920

X-net 影音探索 #003

作者 | Teresa

近日,三星电子推出X-net,这是一种联合学习的Scale-down和Scale-up架构,用于语音编码中的预处理和后处理,作为在带宽受限的语音通话信道上扩展带宽的一种手段。其中,在发送端和接收端分别部署Scale-down和Scale-up,以进行下采样和上采样处理。并对子模块进行单独监督训练,这样即使缺少一个子模块,X-net也能够正常工作。在三星电子发表的X-net论文中(_X-net: A Joint Scale Down and Scale Up Method for Voice Call_),有结果表明,联合训练的 X-net 在客观和主观指标上,比常见的音频超分辨率方法有明显改进,即使在只有 1k 参数量级的轻量级网络上也是如此。

X-net 架构

三星电子推出X-net架构用于语音通话

上图显示了在语音通话场景中应用 X-net 架构。它包含一个在发送端部署的Scale-down模块,以及一个在接收端部署的Scale-up模块。在麦克风输入的高带宽语音信号后,应用Scale-down模块做向下采样,为语音编码器提供对应的低带宽语音。然后,应用Scale-up模块将语音解码器输出的低带宽语音转换回高带宽语音进行输出。

由于编解码器是一个标准的固定模块,用于传输限定带宽的语音数据。因此,三星电子推出的X-net架构包含了Scale-down、编解码器和Scale-up模块,能够在不改变现有语音通话信道设置的情况下,达到传输高质量的语音的目的。

训练X-net

三星电子推出X-net架构用于语音通话

其特点在于不仅使用时域损失函数或混合时域和频域损失函数,而是应用具有不同目标的两阶段训练计划。其中,在第一阶段使用时域 MSE 损失来获取最小化波形失真。在第二阶段切换到对数频谱幅度 (LSA) 上的 MSE,这可以更好地保证听觉上的相似性。

小 结

X-net主要针对的是限定带宽的语音通话信道上的高质量语音传输,并提出了一种时域上的轻量化网络的设计:Scale-down/Scale-up。它的特点是联合优化的神经网络下采样和上采样,分别部署在编码端和解码端,提高现有语音通话系统的语音质量。有实验结果表明,X-net的表现优于常见的音频带宽扩展方法。将X-net应用于EVS (Enhanced Voice Services) 语音通话场景中,即便只有1k的网络参数,POLQA MOS(平均意见评分)有着显著提升。我们也注意到三星电子在论文结语中,表示会进一步研究X-net对于Codec性能的提升,甚至于设计新的Codec。


参考链接:

https://www.isca-speech.org/a...\_2021/wen21\_interspeech.html

http://epub.cnipa.gov.cn/tdcd...

感谢三星电子音频负责人,王立众老师对本文进行技术审校。

扫描图中二维码了解大会更多信息

三星电子推出X-net架构用于语音通话

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这