网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验

析构薄雾
• 阅读 1505

10月31日-11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举办。本次大会以“多媒体开启新视界”为主题,聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域,数十位业内知名讲师与来自全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享了技术创新与最佳实践。

网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验

本次大会中,人工智能相关话题十分火爆,AI已经渗透到多媒体技术的各个环节,无论内容生产、编解码、音视频前后处理等,AI都有一席之地,甚至被寄予厚望。网易云信资深音频算法工程师郝一亚博士受邀参会,在“音频技术:逼近人耳极限”专题会场进行了题为《RTC中AI音频算法的产品化》的主题演讲,并在“5G、AI,新技术与新变革”圆桌论坛中分享了AI在音视频领域应用的实践经验。

主题分享中,郝一亚博士首先介绍了AI在音频处理中日渐强大的力量。随着AI在计算机视觉等领域的成功应用,CNN、RNN等深度学习网络被迅速应用到了音频领域,AI在音频降噪、场景分类、回声控制、盲源分离等方向着发挥着越来越重要的作用。

网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验

虽然AI在音频领域的价值日渐明显,但在目前的算法中,特别是RTC音频中,还没有被大范围的应用起来。针对音频处理中AI的挑战与局限,郝一亚博士概括为三点。一是计算复杂度。AI模型通常需要巨大的计算量,就目前我们大部分终端设备的计算能力来说压力很大,对RTC中的实时性提出了考验。二是泛化能力。AI算法是基于有限的数据集训练出来的,泛化能力有限一直是问题所在。而RTC中覆盖的业务场景非常多,AI算法要覆盖所有场景更是难上加难。三是鲁棒性。RTC丰富的应用场景中会有很多突发情况,对于AI算法鲁棒性的要求也非常高。

由于算力、数据和AI模型本身的限制,现在AI还达不到替换传统信号处理方法的阶段,但音频AI在效果上的优势已经被证实。郝一亚博士提出,在RTC领域,要想更好地发挥出AI的优势,有效规避不足,进行“模块化”处理是一个有效的途径。把端到端、长链路的处理拆分,分别找到合适的AI模块,让专业的“人”做专业的事。

网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验

以音频降噪中的AI算法为例,传统降噪算法中包含了很多模块,其中“噪声估计”模块很适合做深度学习训练,特别是针对一些稳态噪声。在这里,不用端到端地去训练整个AI模型,而是把这一模块训练成单独的噪声估计模型。通过模块化的处理,实现了轻量级模型、简单的训练目标以及更适合DNN模型,从而最大程度的发挥了AI的优势。

郝一亚博士认为,未来越来越多的AI技术将融入到RTC中,一些新的爆发点可能是更先进的神经网络模型,更高效的GPU等,但是,有一项关键点不会变,那就是大量的数据。目前,网易云信已配备了全套工具和环境采集多种来源的数据集用于训练AI算法,已经在音频降噪和视频超分等场景中实践应用。

网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验

2015年10月至今,网易云信一直专注于即时通讯和音视频技术领域的前沿探索和应用实践,已帮助100万企业开发者成功发送10000亿条消息,日活突破3亿,在百家争鸣的PaaS市场中实现稳中增长。近期,网易云信再度加码技术能力,全面升级的音视频通话2.0产品上线,AI等新兴技术已融入产品开始服务客户。未来,网易云信将坚持不断创新,探索融合通讯领域的新技术、新产品、新应用,与行业共创美好新时代。

点赞
收藏
评论区
推荐文章
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
2015移动应用创新大会暨APP展览会
专注于移动应用领域的行业盛会,2015移动应用创新大会暨APP展览会,将于2015年12月2日3日在上海举办。本届大会将全面引领移动应用行业的发展走向,汇聚来自国际、国内紧跟潮流的移动应用产品及创新技术;集中展示涵盖:资讯娱乐、商务办公、健康医疗、社交出行、生活服务、电商支付等领域,大会致力于推动移动应用产业的深层次拓展,励志成为中国最前沿、最专业的
Stella981 Stella981
4年前
LiveVideoStackCon 2017 Day 1精彩回顾
10月20日北京,一年一度的LiveVideoStackCon2017音视频技术大会在北京丽亭华苑酒店举行,会议甄选多媒体开发领域最新技术实践与应用案例,大会设立9大专题、1场技术培训,超过50场技术分享,近400位来自教育、视频会议、社交、游戏、电商、安防、金融、物联网等行业的工程师、技术负责人以及高端行业用户、产品与项目负责人、分析师、投资人、媒体人齐
Wesley13 Wesley13
4年前
2020中国系统架构师大会活动回顾:ZEGO实时音视频服务架构实践
10月24日,即构科技后台架构负责人&高级技术专家祝永坚(jack),受邀参加2020中国系统架构师大会,在音视频架构与算法专场进行了主题为《ZEGO实时音视频服务架构实践》的技术分享。以下为演讲内容的节选:作为一家专业的音视频云服务商,即构服务了泛娱乐、在线教育、金融、产业互联网、IoT等行业的多家头部公司,例如映客、花椒、微博、好未来等。今年上半
Stella981 Stella981
4年前
LiveVideoStackCon讲师热身分享 ( 十五 ) —— 教育场景下的实时音视频解决方案
LiveVideoStackCon2018音视频技术大会是每年的多媒体技术人的盛宴,为了让参会者与大会讲师更多互动交流,我们推出了LiveVideoStackCon讲师热身分享第一季,在每周四晚19:30,邀请1名大会讲师进行线上分享技术干货,解答热点问题。你可以通过以下方式参与:关注LiveVideoStack公众号【livevi
Stella981 Stella981
4年前
LiveVideoStackCon讲师热身分享 ( 十一 ) —— 短视频APP的架构设计
LiveVideoStackCon2018音视频技术大会是每年的多媒体技术人的盛宴,为了让参会者与大会讲师更多互动交流,我们推出了LiveVideoStackCon讲师热身分享第一季,在每周四晚19:30,邀请1名大会讲师进行线上分享技术干货,解答热点问题。你可以通过以下方式参与:关注LiveVideoStack公众号【livevi
智汇宁夏,共创未来!天翼云携手宁夏共建“中国算力之都”!
为充分发挥宁夏算力产业基础与优势,聚焦人工智能关键共性技术创新,推动人工智能技术与实体经济深度融合,搭建AI产业应用开发与生态合作平台,6月29日,2024首届算力之都开发者大会暨天翼云智算生态合作大会在宁夏隆重举行。大会以“沙海铸就人工智能,黄河汇集数字洪流”为主题,邀请全球顶尖院士和来自清华大学、北京邮电大学等高校的知名学者、10余家头部模型厂商、3000余名国内外AI开发者和行业精英汇聚一堂,共同探讨AI应用创新的前沿趋势和关键技术,展示AI技术在各个领域的应用成果,推动AI应用的落地和普及。
亮相2024 DPU&AI Networking创新大会,天翼云斩获两项大奖!
近日,以“智驱网络芯动未来”为主题的2024DPU&AINetworking创新大会在北京举办。大会表彰了在DPU与AI网络技术创新及实践应用中取得卓越成就的单位与项目,天翼云科技有限公司荣膺创新引擎奖、《紫金DPU算力卸载与网络加速应用》荣获实践先锋奖,技术创新实力以及应用实践成果再获行业认可。
电商搜索革命:大模型如何重塑购物体验?
自我介绍:京东零售搜推算法部算法工程师,专注于大模型技术以及在AI助手搜推等领域的应用探索和实践。在AI助手,NLP和搜索领域有十多年研发实践经验,在AI/NLP领域申请超过15项发明专利并出版两部著作。随着电商行业的蓬勃发展,搜索技术作为连接用户与商品的
WitAwards 2024荣耀登榜!AOne载誉而归!
近日,FCIS2024网络安全创新大会在上海举办。本次大会以“迈向安全服务化时代”为主题,邀请来自全球的网安精英、技术专家、CISO/CSO、白帽子、创业者等展开深度对话,分享与交流网安行业下一个十年的思考、观点。会上公布了WitAwards2024中国网络安全行业年度评选结果,天翼云AOne边缘安全加速平台上榜“年度创新安全产品TOP10”。
2023京东全球科技探索者大会暨京东云峰会来了!
大模型开启AI新范式,AIGC掀起行业新浪潮。“2023京东全球科技探索者大会暨京东云峰会”,将于7月13日在北京举办。本次大会,以“跨越·产业智能”为主题,聚焦大模型与产业深度融合,将重磅发布京东大模型,推出新一代数字基础设施,升级产品及解决方案,致力于
析构薄雾
析构薄雾
Lv1
故乡遥,何日去。家住吴门,久作长安旅。
文章
5
粉丝
0
获赞
0