Elasticsearch中文同义词

算法踏风鹤
• 阅读 7111

Elasticsearch的标准版本及以上是支持设置同义词功能的, 其实也就是除了OSS(开源)版以外其它的都支持.

环境说明

  • Elasticsearch 7.6.x
  • 与ES相匹配的IK分词插件
  • 示例中会分别使用到shell命令和Kibana, 以$开头的代表是shell命令, 否则表示Kibana的console命令

操作

同义词可以使用 synonym 参数来内嵌指定,或者必须 存在于集群每一个节点上的同义词文件中。 同义词文件路径由 synonyms_path 参数指定,应绝对或相对于 Elasticsearch config 目录。

下面以同义词的两种设置方式来介绍:

同义词文件方式

设置同义词文件

# 进入Elasticsearch目录执行,生成文件
$ echo '"iPhone,苹果手机 => iPhone,苹果手机",
    "2233,22娘,33娘 => bilibili,B站"' > config/analysis/synonyms.txt

创建索引

PUT /goods2
{
  "settings": {
    "analysis": {
      "filter": {
        "my_synonym_filter": {
          "type": "synonym",
          "updateable": true,
          "synonyms_path": "analysis/synonyms.txt"
        }
      },
      "analyzer": {
        "my_synonyms_analyzer": {
          "tokenizer": "ik_smart",
          "filter": [
            "my_synonym_filter"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_smart",
        "search_analyzer": "my_synonyms_analyzer"
      }
    }
  }
}
my_synonym_filter是自定义的词汇过滤器, my_synonyms_analyzer是自定义的分析器, 可以看出后者是包含并引用了前者的.

在本索引中自定义的词汇过虑器和分析器也只能在当前索引中使用.

updateable指示能否动态更新, 必须为true才能动态更新同义词

synonyms_path指示同义词文件的位置

analysis.analyzer.tokenizer指示在这个分析器里用ik_smart的分词器, 在这个索引中的分析链是原始文本 => 分词器 => 词汇过滤器, 即原始文本先经过分词的结果再用来给词汇过滤器处理(在这个索引的作用是同义词).

mappings.properties.title.search_analyzer指示title字段在查询时使用my_synonyms_analyzer分析器, 同理mappings.properties.title.analyzer指示其在索引时使用的分析器.

查看分析结果

第一行分词的效果
# 字母大小写没有影响
GET goods2/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "iphone"
}

GET goods2/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "苹果手机"
}

上面两条语句的结果是一样的

{
  "tokens" : [
    {
      "token" : "iphone",
      "start_offset" : 0,
      "end_offset" : 6,
      "type" : "ENGLISH",
      "position" : 0
    },
    {
      "token" : "苹果",
      "start_offset" : 0,
      "end_offset" : 6,
      "type" : "SYNONYM",
      "position" : 0
    },
    {
      "token" : "手机",
      "start_offset" : 0,
      "end_offset" : 6,
      "type" : "SYNONYM",
      "position" : 1
    }
  ]
}
第二行分词的效果
GET goods2/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "2233"
}

GET goods2/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "22娘"
}

结果

{
  "tokens" : [
    {
      "token" : "bilibili",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 0
    },
    {
      "token" : "b",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 0
    },
    {
      "token" : "站",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 1
    }
  ]
}

变更同义词并更新索引

# 进入Elasticsearch目录执行,生成文件
# `iPhone,苹果手机 => iPhone,苹果手机`与`iPhone,苹果手机`的效果是一样的
# 内容中的双引号`"`和行末的逗号`,`不是必须的(没有的话须要有换行符), 这里只是为了和和内嵌式的保持一致才这么写的
$ echo '"iPhone,苹果手机",
    "2233,22娘,33娘 => bilibili,B站,二次元"' > config/analysis/synonyms.txt
# 使新的同义词生效
POST /goods2/_reload_search_analyzers
变更同义词后的第二行分词的效果
GET goods2/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "2233"
}

结果

{
  "tokens" : [
    {
      "token" : "bilibili",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 0
    },
    {
      "token" : "b",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 0
    },
    {
      "token" : "二次元",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 0
    },
    {
      "token" : "站",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "SYNONYM",
      "position" : 1
    }
  ]
}

内嵌方式

创建索引

同义词配置就在synonyms属性里

PUT /goods3
{
  "settings": {
    "analysis": {
      "filter": {
        "my_synonym_filter": {
          "type": "synonym",
          "synonyms": [
            "iPhone,苹果手机 => iPhone,苹果手机",
            "2233,22娘,33娘 => bilibili,B站"
          ]
        }
      },
      "analyzer": {
        "my_synonyms_analyzer": {
          "tokenizer": "ik_smart",
          "filter": [
            "my_synonym_filter"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_smart",
        "search_analyzer": "my_synonyms_analyzer"
      }
    }
  }
}

查看分析结果

下面的结果跟同义词文件方式的是一样的


GET goods3/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "iphone"
}

GET goods3/_analyze
{
  "analyzer": "my_synonyms_analyzer",
  "text": "2233"
}

变更同义词并更新索引

# 须要先关闭索引才能变更设置
POST /goods3/_close

PUT /goods3/_settings/
{
  "analysis": {
    "filter": {
      "my_synonym_filter": {
        "type": "synonym",
        "synonyms": [
          "iPhone,苹果手机",
          "2233,22娘,33娘 => bilibili,B站,二次元"
        ]
      }
    }
  }
}

# 重新开启索引
POST /goods3/_open

查询实践

以索引goods2为例

# 插入一条数据
POST /goods2/_doc/1
{
  "title":"bilibili是个好平台"
}

# 通过`2233`关键词查找
GET /goods2/_search
{
  "query": {
    "match": {
      "title": "2233"
    }
  }
}

结果

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.2876821,
    "hits" : [
      {
        "_index" : "goods2",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.2876821,
        "_source" : {
          "title" : "bilibili是个好平台"
        }
      }
    ]
  }
}

总结

  • 在Elasticsearch中设置同义词有内嵌式同义词文件式两种
  • 同义词文件式可以在不关闭索引的情况下动态更新同义词

参考资料

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
4年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
4年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
4年前
ElasticSearch 5.5 离线环境的完整安装及配置详情,附kibana、ik插件配置及安装包下载路径
此文针对局域网环境(非公网环境),提供ElasticSearch5.5.2的完整安装及配置教程,包括ES的kibana插件、IK中文分词插件安装及配置。另外,文章提供安装配置环境涉及到的所有安装包下
Stella981 Stella981
4年前
ELK学习笔记之ElasticSearch的索引详解
0x00ElasticSearch的索引和MySQL的索引方式对比Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在18和30之间,性别为女性这样的组合查询。倒排索引很多地方都有介绍,但是其比关系型
Python进阶者 Python进阶者
2年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这