ZEGO 即构音乐场景降噪技术解析

递归蝉翼
• 阅读 483

随着线上泛娱乐的兴起,语聊房、在线 KTV 以及直播等场景在人们的日常生活中占据越来越重要的地位,用户对于音质的要求也越来越高,因此超越传统语音降噪算法的 AI 降噪算法应运而生,所以目前各大 RTC 厂商普遍使用 AI 技术进行降噪处理,使用 AI 降噪技术消除除人声外的一切声音。

但对于一些特殊场景,如在线 KTV、线上直播等声卡场景,或者弹唱、伴奏、乐器等使用场景中,我们可以明显的感受到,一般降噪处理或 AI 降噪处理的过程中会将音乐/伴奏误识别为噪音,并进行降噪处理,给用户带来很不好的线上体验。因此,在此类使用场景中用户越来越不满足于背景降噪,而是提出更高要求,那就是深度降噪的同时保留音乐的音质。为了满足用户消噪与音乐音质高保真的需求,ZEGO 即构科技自研了一套自适应降噪方案,能在音乐与非音乐场景中智能切换,既保证了无音乐场景下的语音的质量,又保留了音乐的高保真音质。

音乐场景降噪方案简介

首先简单了解一下即构音乐场景降噪的方案流程:

ZEGO 即构音乐场景降噪技术解析

从图中可以看到,经过前处理后的音频数据会被送入 AI 音乐检测模块,接着根据检测结果将场景分为音乐和非音乐场景。若检测出音乐场景则会使用传统降噪对音频数据进行处理,以减少对音乐的损伤,非音乐场景则继续使用 AI 降噪进行更深度的噪声消除。最后数据会经过自动增益模块完成最终的语音增强。

关于 AI 音乐检测算法

由上文描述中可以看到,完成音乐场景降噪功能最重要的一环就是 AI 音乐检测算法。为了满足音乐场景的实时切换与极高检测率的需求,我们自研了基于AI的音乐检测算法 ZegoAIMusicDetecion。 算法流程如下:

ZEGO 即构音乐场景降噪技术解析

我们对数据进行帧长为 20ms,帧移为 10ms 的 STFT 处理后,使用 Bark 频带尺度将数据分为8 个子带,再分别求取一阶差分,二阶差分和谱平坦度最终得到 25 维特征。将计算得到的特征送入到我们设计的轻量型网络模型 CRNN,模型结构如下:

ZEGO 即构音乐场景降噪技术解析

这里使用多层 Conv1d 卷积层能进一步的对特征进行提取。训练时,我们搜集了大量的开源音乐、语音与噪声数据进行训练,同时使用不同信噪比进行数据混合增强,确保模型有足够的泛化性。在训练优化器上,我们选择了 AdamW 以更好地对模型进行正则化处理,学习率为 0.001,批大小是 64,损失函数我们使用了交叉熵函数,公式如下:

ZEGO 即构音乐场景降噪技术解析

算法效果与性能开销

有了 AI 音乐检测算法的帮助,我们最终可以实现针对音乐场景的降噪方案,方案最终的效果如下:

ZEGO 即构音乐场景降噪技术解析

从上面的频谱图以及实际的听感来看,都可以直观的感受到即构音乐场景降噪方案对音乐音质的保护。在提供良好效果的同时,ZegoAIMusicDetecion 秉承着极轻量级模型的设计理念,整体计算量大约为 1.2M FLOPS,RTF 指标在各个平台和终端上均控制在 0.2% 以内。在此基础上,我们采用多帧平滑的后处理技术使音乐检测误检率低于 1%,音乐检测率达到 95% 以上。

技术展望

音乐场景在泛娱乐社交和互动中十分常见,需要注重用户和听众的使用感觉,做好音乐场景降噪处理。综上所述,ZEGO 即构科技为了同时兼顾降噪与音乐音质体验,自研了基于 AI 的音乐检测算法(点这里),设计出一套音乐场景降噪方案,充分体现即构对于用户良好体验的高度重视。

未来,我们会结合具体行业和场景,引入更多的可行性方案,提升产品的场景适应能力,给用户提供更好的音频体验!了解更多ZEGO即构IM即时通讯服务

点赞
收藏
评论区
推荐文章
春风化雨 春风化雨
2年前
Topaz Video AI for mac(视频增强和修复工具)
TopazVideoAIforMac是一款视频增强和修复工具,采用了人工智能技术,可以提高视频的清晰度、降噪、去抖动和插帧等。这款软件支持多种视频格式,包括MP4、MOV、AVI等。使用TopazVideoAIforMac,用户只需将需要处理的视频导入到软
Stella981 Stella981
3年前
Python图片验证码降噪 — 8邻域降噪
!(http://qiniu.spiderpy.cn/19130/captchat.jpg)简介图片验证码识别的可以分为几个步骤,一般用Pillow库或OpenCV来实现,这几个过程是:1.灰度处理&二值化2.降噪3.字符分割4.标准化5.识别所谓降噪就是把不需
Wesley13 Wesley13
3年前
QCC514X蓝牙音频片上系统引入自适应主动降噪技术
虽然以AirPods为代表的无线耳机已经提供了相对舒适的佩戴感受,但其在嘈杂环境中的降噪体验仍不尽如人意,此外不是所有用户都喜欢那种纯粹的开放式、或完全与环境声隔绝的降噪效果。好消息是,得益于高通为QCC514X蓝牙音频片上系统引入的“自适应主动降噪”技术,不久后的入耳式无线耳机或可带来媲美开放式耳机的智能降噪体验。!(https://im
子桓 子桓
2年前
音频声轨道上刺耳的声音能消除吗?
音频声轨道上刺耳的声音能消除吗?使用iZotopeRX7Advancedmac版就可以啦,专业降噪和音频修复软件,一款功能强大、专业的音频处理软件,适用于Mac平台。它具有先进的音频分析和处理技术,可以帮助用户修复和恢复各种音频文件,包括音乐、电影、电视节
流浪剑客 流浪剑客
1年前
Macos图像处理工具:Topaz Photo AI for Mac激活版 支持m1
是一款基于人工智能的照片编辑软件,它革命性的功能能够让用户使用强大的工具和技术来编辑照片,而不会降低照片质量。该软件具备高清晰度效果、降噪和自动照片润色工具,可以帮助用户制作令人惊叹的照片。具体来说,它包括复杂的锐化算法,可以提高图像清晰度,还提供肖像编辑
小尉迟 小尉迟
1年前
如何使用Topaz DeNoise AI在Lightroom Classic中进行批量编辑?
TopazDeNoiseAI是一款非常强大的智能图片降噪软件,简单易用,可以帮助用户更轻松进行图片降噪处理操作。那么,TopazDeNoiseAI具体操作起来都是怎么操作的呢?如何使用TopazDeNoiseAI在LightroomClassic中进行批量
绣鸾 绣鸾
1年前
DxO PureRAW 3 for mac(raw照片智能处理工具)
是一款raw智能照片处理工具,该软件采用了智能技术,以解决影响所有RAW文件的七个问题:去马赛克,降噪,波纹,变形,色差,不想要的渐晕,以及缺乏清晰度。DxOPureRAW使用高级算法自动优化和增强RAW图像,同时保留最大数量的细节和颜色。DxOPureR
数据堂 数据堂
1年前
语音数据集在人工智能中的应用与挑战
一、引言随着人工智能技术的快速发展,语音数据集在各种应用中发挥着越来越重要的作用。语音数据集是AI语音技术的基石,对于语音识别、语音合成、语音情感分析等任务具有重要意义。本文将详细介绍语音数据集在人工智能中的应用、面临的挑战以及未来的发展趋势。二、语音数据
阮小五 阮小五
3个月前
一键抠像+自动剪辑 Premiere Pro 2025 让创作更智能
核心功能介绍✅AI智能剪辑增强AutoReframe(自动重构图):智能识别主体,适配不同画幅(横屏→竖屏)。AI音频降噪:一键消除背景杂音,人声更清晰。智能色彩匹配:自动分析并统一多片段色调,告别手动调色。✅性能全面升级全新多帧渲染引擎:支持AppleS
公孙晃 公孙晃
2年前
视频增强、修复工具:Topaz Video AI for mac
TopazVideoAI是一款使用人工智能技术对视频进行增强和修复的软件。它可以自动降噪、去除锐化、减少压缩失真、提高清晰度等等。TopazVideoAI可以处理各种类型的视频,包括低分辨率视频、老旧影片、手机录制的视频等等...
公孙晃 公孙晃
2年前
Perfectly Clear Video for Mac,视频清晰化处理工具
PerfectlyClearVideoMac版使用先进的算法自动调整和增强视频,在几秒钟内提高其质量和清晰度。该软件应用色彩校正、锐化、降噪和其他调整来创建高质量的视频输出...