玩转多种应用场景,快手 MMU 分享秘籍

卢逊
• 阅读 3959

玩转多种应用场景,快手 MMU 分享秘籍

✏️ 编者按:

短视频的兴起见证了一场信息革命。图文时代逐渐过渡到多媒体时代,对视频的理解和搜索已成为当下的关键技术。作为国民级短视频 App 的 AI 中台,快手 MMU(Multimedia understanding 多媒体内容理解)团队是如何在多种应用场景下应对自如的?Milvus 社区有幸邀请到了来自快手 MMU 的研发工程师余晋,与大家分享 Milvus 在快手中的应用。

🌟 嘉宾简介:余晋,快手多媒体内容理解工程师,负责引擎架构、大规模向量计算,毕业于北京大学,喜欢读书与慢跑。

完整视频请戳:https://www.bilibili.com/vide...

MMUMMR1.0:基于 Milvus 数据库的向量近似计算平台

快手 MMU 是负责快手短视频搜索系统以及视频理解的 AI 中台,业务覆盖 OCR,ASR,分词,NER 等基础 AI 算法;短视频分类,标签体系建设等中台技术;以及短视频搜索等系统服务。在该 AI 中台中,向量计算起到了至关重要的作用。

玩转多种应用场景,快手 MMU 分享秘籍

快手 MMU 团队需要处理许多与向量计算相关的应用场景:相似视频检索、视频合规检索、原创视频检测、商品检测……在接触 Milvus 之前,团队使用的是自研向量检索系统,但实现方式比较复杂,维护成本高,系统可用性一般,亟需一款高性能、易接入且高稳定性的向量数据库供各个业务方使用。

经过一系列的产品调研,快手 MMU 团队最终选择了社区活跃、稳定与性能兼备的 Milvus 作为 AI 中台,搭建包括 AI 模型、数据分析工具、ANNS 等平台。目前已经实现的场景包含千亿级的视频检索、十亿级的商品检索,后续也会有更多场景逐步迁徙至 Milvus 搭建的 ANNS 平台。

玩转多种应用场景,快手 MMU 分享秘籍

基于 Milvus 1.1 的 MMUMMR 1.0 架构如上图所示,其中,向量数据存储计算是基于 Milvus 的数据分片和归并管理。Milvus 数据库支持云原生分布式架构,具有存储计算分离,写入、构建、分布计算、查询分离的特点,流批一体、弹性伸缩。
(Milvus 2.0 也在前不久和大家见面了,一起来看看 Milvus 2.0 有哪些新功能吧!)

冠军方案分析:当我们讨论向量计算的时候,我们在讨论什么

快手团队在前不久举办的国际首届向量检索大赛中获得了赛道第一的好成绩。该赛道要求参赛队伍针对 6 个十亿规模的数据集中的至少三个,达到在 10000 QPS 以上性能的同时,相对基准方案 Faiss 的 IVFPQ 方法尽可能提高召回率。快手团队的方案针对 IVFPQ 方法进行了全方面的优化,在四个数据集上都比 baseline 高 5% - 10%。

关于国际首届向量检索比赛的更多信息,欢迎参考:产学研用跨界对话,向量数据库研讨会回顾

向量近似计算 API 介绍和应用

Milvus 数据库提供一整套简单直观的 API。MMUMMR 1.0 的 Collection 索引库就使用了 create、drop、count、stat 等 Milvus 原生 API,实现最近三天的冷启视频特征召回、最近 90 天的近期热门视频特征召回等自动生命周期管理类业务应用。
Milvus Collection API 地址是:https://milvus.io/api-referen...

此外,MMUMMR 1.0 还在视频查重、视频生成物料检索、商品 SKU 识别、平行语料建设等业务中采用高精度 KNN 检索;在视频商品检索和视频检索等场景中采用属性检索;在视频封面去重业务中采用 ADBKmeans 聚类的方法,具体实践详见视频 👇

https://www.bilibili.com/vide...

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
梦
4年前
微信小程序new Date()转换时间异常问题
微信小程序苹果手机页面上显示时间异常,安卓机正常问题image(https://imghelloworld.osscnbeijing.aliyuncs.com/imgs/b691e1230e2f15efbd81fe11ef734d4f.png)错误代码vardate'2021030617:00:00'vardateT
Stella981 Stella981
3年前
Opencv中Mat矩阵相乘——点乘、dot、mul运算详解
Opencv中Mat矩阵相乘——点乘、dot、mul运算详解2016年09月02日00:00:36 \牧野(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fme.csdn.net%2Fdcrmg) 阅读数:59593
Stella981 Stella981
3年前
C# Aspose.Cells导出xlsx格式Excel,打开文件报“Excel 已完成文件级验证和修复。此工作簿的某些部分可能已被修复或丢弃”
报错信息:最近打开下载的Excel,会报如下错误。(xls格式不受影响)!(https://oscimg.oschina.net/oscnet/2b6f0c8d7f97368d095d9f0c96bcb36d410.png)!(https://oscimg.oschina.net/oscnet/fe1a8000d00cec3c
Stella981 Stella981
3年前
Linux查看GPU信息和使用情况
1、Linux查看显卡信息:lspci|grepivga2、使用nvidiaGPU可以:lspci|grepinvidia!(https://oscimg.oschina.net/oscnet/36e7c7382fa9fe49068e7e5f8825bc67a17.png)前边的序号"00:0f.0"是显卡的代
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
直播预告丨大模型如何在健康医疗中挖出大大的花?
大模型时代,“应用变了”:大模型如何在健康医疗中挖出大大的花?12月1日(周五)14:0015:00开播!大模型时代,给千行百业带来了新的想象空间试想一下,大模型经过专业知识训练竟然能够成为你的健康医疗助手曾经科幻片中的场景,正一步步成为现实这一期,我们将
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Python爬虫实战:快手数据采集与舆情分析
1.引言在短视频时代,快手作为国内领先的短视频平台之一,积累了海量的用户数据、视频内容和互动信息。这些数据对市场分析、用户行为研究、舆情监测等具有重要价值。本文将介绍如何使用Python爬虫技术采集快手数据,并基于NLP(自然语言处理)进行简单的舆情分析。