【NLP系列】Bert词向量的空间分布
我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于Word2Vec、Glove等并没有明显的提升
Wesley13 Wesley13
2年前
NLP(十二)依存句法分析的可视化及图分析
  依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。  我们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法分析,需要事件下载pos.model和parser.mo
Stella981 Stella981
2年前
Elasticsearch Mapping之字段类型(field datatypes)
ElasticSearch支持如下数据类型:基本类型string(字符串类型)字符串类型包含text与keyword两种类型。1.text文本类型,在索引文件中,存储的不是原字符串,而是使用分词器对内容进行分词处理后得到一系列的词根,然后一一存储在index的倒排索引中。text类型支持如下
Stella981 Stella981
2年前
Solr搜索引擎 — 查询命令和两种中文分词使用
!(http://pic.wblog.cn/F21D67BC6A7C498FACFF9F0E28C60A8A.png)已经和mysql建立好了关联,可以查询和更新mysql的数据量,接下来就是进阶的使用方式了附上:喵了个咪的博客:http://wblog.cn(https://www.oschina.net/action/Go
Stella981 Stella981
2年前
Lucene系列六:Lucene搜索详解(Lucene搜索流程详解、搜索核心API详解、基本查询详解、QueryParser详解)
一、搜索流程详解1\.先看一下Lucene的架构图!(https://oscimg.oschina.net/oscnet/f99b42f5233e8afba2477e1f5ba2e087f9f.png) 由图可知搜索的过程如下:  用户输入搜索的关键字、对关键字进行分词、根据分词结果去索引库里面找到对应的文章id、根据
Stella981 Stella981
2年前
ES 1.7安装ik分词elasticsearch
IK简介https://www.cnblogs.com/yjf512/p/4789239.html(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.cnblogs.com%2Fyjf512%2Fp%2F4789239.html)https://
Stella981 Stella981
2年前
ElasticSearch6.5.0 【安装IK分词器】
不得不夸奖一下ES的周边资源,比如这个IK分词器,紧跟ES的版本,卢本伟牛逼!另外ES更新太快了吧,几乎不到半个月一个小版本就发布了!!目前已经发了6.5.2,估计我还没怎么玩就到7.0了。下载分词器:GitHub(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithu
Stella981 Stella981
2年前
Net Core使用Lucene.Net和盘古分词器 实现全文检索
Lucene.netLucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算法进行切词,分词后的结果存储在索引库中,从索引库检索数据的
Stella981 Stella981
2年前
Docker 容器添加中文字体
系统里有一个需要在图片上画中文的功能,在测试环境是ok的,一到线上Docker容器环境中文就不显示了,查了一些资料说是缺少中文字体,那我们就来安装中文字体吧。1\.查看当前使用的系统语言:$echo$LANGen_US.UTF8en\_US.UTF8是支持中文编码的,所以并不需要去安装中文编