基于敏感词过滤的反垃圾系统

季宁
• 阅读 2550

当前的项目已经开源,点击这里

内容安全是当前安全风控体系健身中非常重要的一环。一方面,无论是小程序还是APP,在上架过程中面临很多监管的要求,这一环搞不好就要面临下架的风险,另一方面,关键词屏蔽本身就是业务需求的一部分,比如屏蔽某个竞对的外链等。

市面上已经很多大的云厂商和一些专门做风控领域的厂商提供这方面的服务,但主要存在以下的痛点:

  • 考虑到各种乙方使用者的通用性,无论是API设计和control platform都存在大量冗余的设计;导致一个原本非常简单的场景在付出很大的接入和维护成本;
  • 当面临一些个性化的需求时,三方又不能满足,即便能给技术支持,因为排期过长时效性很差;
  • 误判率高;各三方提供方有所差异;一些机器学习的模型,误判率很高,而且出现问题后不好调整,造成很差的用户体验;
  • 在量很大的情况下,每个月的成本支出还是不小的一块成本;

在此基础上,能不能设计一个即简单又不失灵活,可以满足基础的监管要求(这块主要是看关键词)又可以满足日常一些关键词屏蔽的业务需求呢?

针对上面的想法,开发一个绿盾的项目, 主要采用以下三种匹配过滤方式;

  1. 基础的关键词匹配;这块主要是解决词库很大的情况下,匹配效率的问题;现在比较主流的算法是使用DFA算法,来做词匹配;
  2. 另外为了解决一些关键词匹配不足的问题,提出的组合词策略;比如,在商品描述中,出现象牙是不允许售卖的,所以把象牙加到关键词当中,但是如果出现象牙白仿象牙等描述词,就会被替换成**白通过分词可以解决一部分这个问题;
  3. 最后还有极少量的场景,如果1,2都无法解决,那么采用正则表达式的方式来解决;

除了满足基本的匹配功能之外,还有一些定制化的功能;比如可以通过client通过传递的参数来匹配自己的词库;

对于工程化的一些需求:

  1. 对微服务方式部署的支持; 如果存储到文件中,如果部署多套,那么维护成本是比较高的;这时候尽量采用数据库方式;
  2. 词库更新的问题; 词库发生变更后,比如加词后或者删除词后,如何实现热加载。一般有两种方式:

    • 通过另外一个服务主动通知的方式;这种通知方式可以是通过调用API接口,也可以是保持长链,推送小时的方式;但不管怎么样,都会增加额外的服务;
    • 服务通过定时轮询数据,对比是否发生变动;来实现自动更新;

因为服务本身定位一个轻量级的服务,如果再加入其它服务,本身就有点重了,所以最终还是定期轮询的方式来实现热更新。在一个写的频率非常低,读的频率非常高的情况下,如果每次把所有的词都加载出来,然后diff下,成本还是比较高;最终选择的方案是增加一个words_info的表来记录每个词库的最后更改时间;每次加载的时候,只需要加载words_info表,对比每个词库的最后更改时间,如果时间发生变更,那么再重新加载词库,生成新的tree即可;

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Wesley13 Wesley13
4年前
VBox 启动虚拟机失败
在Vbox(5.0.8版本)启动Ubuntu的虚拟机时,遇到错误信息:NtCreateFile(\\Device\\VBoxDrvStub)failed:0xc000000034STATUS\_OBJECT\_NAME\_NOT\_FOUND(0retries) (rc101)Makesurethekern
Wesley13 Wesley13
4年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Stella981 Stella981
4年前
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用springdataredis存储数据时乱码rediskey/value出现\\xAC\\xED\\x00\\x05t\\x00\\x05问题分析:查看RedisTemplate类!(https://oscimg.oschina.net/oscnet/0a85565fa
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
4年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Easter79 Easter79
4年前
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用springdataredis存储数据时乱码rediskey/value出现\\xAC\\xED\\x00\\x05t\\x00\\x05问题分析:查看RedisTemplate类!(https://oscimg.oschina.net/oscnet/0a85565fa
Wesley13 Wesley13
4年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
4年前
MBR笔记
<bochs:100000000000e\WGUI\Simclientsize(0,0)!stretchedsize(640,480)!<bochs:2b0x7c00<bochs:3c00000003740i\BIOS\$Revision:1.166$$Date:2006/08/1117