Irene181 Irene181
2年前
手把手教会你使用Python进行jieba分词
前言大家好,我是黄伟。上周我们分享了词云,,这次我们来看看分词。我们从之前学习过的wordcloud可以得知它只能进行英文分词,中文暂不支持,这也正是它美中不足的地方,但是有个模块正好弥补了这一点,它就是jieba,中文名结巴,没错,你没听错也没看错,就是结巴。一、jieba的使用1.安装jieba的安装不管在哪个地方安装都是一个老大难的问题,这也真是让小
【NLP系列】Bert词向量的空间分布
我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于Word2Vec、Glove等并没有明显的提升
Wesley13 Wesley13
2年前
NLP(十二)依存句法分析的可视化及图分析
  依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。  我们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法分析,需要事件下载pos.model和parser.mo
Stella981 Stella981
2年前
Spring Boot 2.0 整合 ES 5 文章内容搜索实战
本章内容文章内容搜索思路搜索内容分词搜索查询语句筛选条件分页、排序条件小结一、文章内容搜索思路上一篇讲了在怎么在 SpringBoot(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.roncoo.com%2Fcourse%2Flis
Stella981 Stella981
2年前
IK Analyzer分词及词频统计Java简单实现
IKAnalyzer基于HadoopMapReducer框架Java实现:1、新建一个ChineseWordCount类2、在该类中再建一个私有静态类CWCMapper继承Mapper类,并复写Mapper类中map方法。PS:Mapper的4个泛型分别为:输入key类型,通常为LongWritable,为偏移量;输入value类型;输出ke
Stella981 Stella981
2年前
ElasticSearch插件集
ElasticSearch的很多功能都是官方或第三方基于ElasticSearch的AbstractPlugin类实现的插件来提供的,所以,在里里记录下一些常用的及实用的插件地址,以备不时之需分词插件ComboAnalysisPlugin(https://www.oschina.net/action/GoToLink?url
Wesley13 Wesley13
2年前
NLP 中的基础总结
1.词中文中,常规的词一般直接由分词工具切割开,如工具包结巴分词,组成短语,一些情况下也可以用单个字表示。英文中的词比较常见的是单个词,也有些情况会使用英文词组1.1词的预处理一般情况下,对于英文文本,首先需要转换时态,三单这种词语的变换,首部大写字母转换小写,有时还需要对单词进行拼写检查。1.2停用词对于中英文文本都存在停用词现象
Stella981 Stella981
2年前
Es学习第七课, term、terms、match等基本查询语法
term、terms查询termquery会去倒排索引中寻找确切的term,它并不知道分词器的存在,这种查询适合keyword、numeric、date等明确值的term:查询某个字段里含有某个关键词的文档GET/customer/doc/_search/{"query":{
Stella981 Stella981
2年前
ElasticSearch 5.5 离线环境的完整安装及配置详情,附kibana、ik插件配置及安装包下载路径
此文针对局域网环境(非公网环境),提供ElasticSearch5.5.2的完整安装及配置教程,包括ES的kibana插件、IK中文分词插件安装及配置。另外,文章提供安装配置环境涉及到的所有安装包下
Stella981 Stella981
2年前
ElasticSearch 索引设置总结
在使用ES时,我们常见的就是需要生成一个template来定义索引的设置,分词器,Mapping.本文将基于项目经验来总结一些常用的配置。Index设置 index.refresh\_interval   配置一个刷新时间,将indexbuffer刷新到oscache的时间间隔,刷新到oscache的