Karen110 Karen110
2年前
人工智能数学基础-线性代数2:向量的点积、內积、数量积和外积
一、内积1.1、定义内积(innerproduct)又称数量积(scalarproduct)、点积(dotproduct),是指接受在实数R上的两个向量并返回一个实数值标量的二元运算。两个向量a\a1,a2,…,an\和b\b1,b2,…,bn\的点积定义为:a·ba1b1a2b2……an\bn。使用矩阵乘法并把(
Stella981 Stella981
2年前
Python生成词云
1概述利用Python生成简单的词云,需要的工具是cython,wordcloud与anaconda.2准备工作包括安装cython,wordcloud与anaconda.2.1安装anaconda下载官网(https://www.oschina.net/action/GoT
Stella981 Stella981
2年前
SEC推广搜索引擎欺骗目前网易博客已经禁止该行为。
SEC是Search Engine Cheat,搜索引擎欺骗。SEC片面强调关键词的堆积,去欺骗搜索引擎提高排名。以下举例几种常见的SEC推广手段。    一、误导性关键词特点:在日志中使用与该日志内容毫不相干的误导性关键词来吸引查询该主题的访问者访问网站。     二、重复性关键词特点:在日志的标题或者正文中出现的关键词进行不合理
Stella981 Stella981
2年前
Panda处理文本和时序数据?首选向量化
导读Pandas作为Python数据分析的首选框架,不仅功能强大接口丰富,而且执行效率也相比原生Python要快的多,这是得益于Pandas底层由C实现,同时其向量化执行方式也非常利于并行计算。更重要的是,这种向量化操作不仅适用于数值计算,对于文本和时间格式也有着良好的支持,而这就不得不从Pandas的属性接口谈起。腾讯课堂|
Stella981 Stella981
2年前
Elasticsearch由浅入深(十一)内核原理
倒排索引组成结构以及索引不可变原因对于倒排索引是非常适合用来进行搜索的它的结构:(1)包含这个关键词的documentlist(2)包含这个关键词的所有document的数量:IDF(inversedocumentfrequency)(3)这个关键词在每个document中出现的次数:TF
Wesley13 Wesley13
2年前
NLP 中的基础总结
1.词中文中,常规的词一般直接由分词工具切割开,如工具包结巴分词,组成短语,一些情况下也可以用单个字表示。英文中的词比较常见的是单个词,也有些情况会使用英文词组1.1词的预处理一般情况下,对于英文文本,首先需要转换时态,三单这种词语的变换,首部大写字母转换小写,有时还需要对单词进行拼写检查。1.2停用词对于中英文文本都存在停用词现象
Stella981 Stella981
2年前
Spark OneHotEncoder
1、概念独热编码(OneHotEncoding) 将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。对于字符串类型的输入数据,通常首先使用StringIndexer
Stella981 Stella981
2年前
Elasticsearch中的DocValues
搜索引擎的基本数据结构是反向索引,也就是为每个关键词建立了到文档的映射,然后所有的关键词是一个有序列表。搜索的时候,只要先从有序列表中匹配到关键词,就能搜索到包含该关键词的所有文档,反向索引的数据结构对于关键词搜索的场景是非常高效的。!(https://oscimg.oschina.net/oscnet/c540a67524fa4829b1
Stella981 Stella981
2年前
Serverless 实战:如何结合 NLP 实现文本摘要和关键词提取?
对文本进行自动摘要的提取和关键词的提取,属于自然语言处理的范畴。提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读;而提取关键词的好处是可以让文章与文章之间产生关联,同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容。文本摘要和关键词提取都可以和传统的CMS进行结合,通过对文章
四儿 四儿
10个月前
语音识别唤醒词的挑战与未来发展
尽管语音识别唤醒词技术已经被广泛应用于各个领域,但仍然面临着一些挑战和问题。首先,语音识别唤醒词技术需要面对噪声和干扰,例如背景噪音、说话人语速、口音等。这些因素可能会影响唤醒词的识别率和准确率,从而影响系统的性能。其次,唤醒词技术需要保护用户的隐私和安全