分词所有文章-最新分词相关文章汇总-第3页-HelloWorld开发者社区

•

4年前

前言大家好，我是黄伟。上周我们分享了词云，，这次我们来看看分词。我们从之前学习过的wordcloud可以得知它只能进行英文分词，中文暂不支持，这也正是它美中不足的地方，但是有个模块正好弥补了这一点，它就是jieba，中文名结巴，没错，你没听错也没看错，就是结巴。一、jieba的使用1.安装jieba的安装不管在哪个地方安装都是一个老大难的问题，这也真是让小

京东云开发者

•

2年前

【NLP系列】Bert词向量的空间分布

我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果，但在语义相似度任务上，表现相较于Word2Vec、Glove等并没有明显的提升

Wesley13

•

4年前

NLP（十二）依存句法分析的可视化及图分析

依存句法分析的效果虽然没有像分词、NER的效果来的好，但也有其使用价值，在日常的工作中，我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果，一个重要的方面便是其可视化和它的图分析。我们使用的NLP工具为jieba和LTP，其中jieba用于分词，LTP用于词性标注和句法分析，需要事件下载pos.model和parser.mo

Stella981

•

4年前

Spring Boot 2.0 整合 ES 5 文章内容搜索实战

本章内容文章内容搜索思路搜索内容分词搜索查询语句筛选条件分页、排序条件小结一、文章内容搜索思路上一篇讲了在怎么在 SpringBoot(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.roncoo.com%2Fcourse%2Flis

Stella981

•

4年前

IK Analyzer分词及词频统计Java简单实现

IKAnalyzer基于HadoopMapReducer框架Java实现：1、新建一个ChineseWordCount类2、在该类中再建一个私有静态类CWCMapper继承Mapper类，并复写Mapper类中map方法。PS：Mapper的4个泛型分别为：输入key类型，通常为LongWritable，为偏移量；输入value类型；输出ke

Stella981

•

4年前

ElasticSearch插件集

ElasticSearch的很多功能都是官方或第三方基于ElasticSearch的AbstractPlugin类实现的插件来提供的，所以，在里里记录下一些常用的及实用的插件地址，以备不时之需分词插件ComboAnalysisPlugin(https://www.oschina.net/action/GoToLink?url

Wesley13

•

4年前

NLP 中的基础总结

1．词中文中，常规的词一般直接由分词工具切割开，如工具包结巴分词，组成短语，一些情况下也可以用单个字表示。英文中的词比较常见的是单个词，也有些情况会使用英文词组1.1词的预处理一般情况下，对于英文文本，首先需要转换时态，三单这种词语的变换，首部大写字母转换小写，有时还需要对单词进行拼写检查。1.2停用词对于中英文文本都存在停用词现象

Stella981

•

4年前

Es学习第七课， term、terms、match等基本查询语法

term、terms查询termquery会去倒排索引中寻找确切的term，它并不知道分词器的存在，这种查询适合keyword、numeric、date等明确值的term：查询某个字段里含有某个关键词的文档GET/customer/doc/_search/{"query":{

Stella981

•

4年前

ElasticSearch 5.5 离线环境的完整安装及配置详情，附kibana、ik插件配置及安装包下载路径

此文针对局域网环境（非公网环境），提供ElasticSearch5.5.2的完整安装及配置教程，包括ES的kibana插件、IK中文分词插件安装及配置。另外，文章提供安装配置环境涉及到的所有安装包下

Stella981

•

4年前

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.netLucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算法进行切词，分词后的结果存储在索引库中，从索引库检索数据的