文本相似度的计算

RabbitMQ信使
• 阅读 4102

文本相似度的计算方法有很多,这里简单记录一下

传统的VSM模型:

计算文本相似度的时候主要是使用tfidf来协助生成文档向量
整个文档集合有多少词,就是多少维度
每个文档中的词用tfidf来生成权重,用权重来表示文档的向量
生成向量后,就可以计算相似度了,用夹角余弦
当然这里词的权重的生成方式还有很多,也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单,主要是先生成文档 - 词矩阵
矩阵中的内容就是文档中出现该词的频数
然后用svd分解矩阵得到三个矩阵
C = USV
然后每个文档向量分别和USV相乘得到向量
文本相似度计算还是夹角余弦
至于降低维度,就要对S进行奇异值削减了
点赞
收藏
评论区
推荐文章
不是海碗 不是海碗
2年前
【真正的ChatGPT】APISpace 可以免费快速体验GPT3.5-Turbo
ChatGPT3.5Turbo使用了一种叫做\"DREAM\"的技术,它能为文本语料库中的每个词生成具有向量表示的词嵌入,从而增强机器学习任务的精度。此外,ChatGPT3.5Turbo使用了多监督学习技术,这可以使模型学习更快,并在真实场景中取得更好的收敛效果。
【NLP系列】Bert词向量的空间分布
我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于Word2Vec、Glove等并没有明显的提升
Stella981 Stella981
4年前
Go 实现字符串相似度计算函数 Levenshtein 和 SimilarText
【转】http://www.syyong.com/Go/GoimplementsthestringsimilaritycalculationfunctionLevenshteinandSimilarText.html(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww
Stella981 Stella981
4年前
OpenCV3与深度学习实例:Dlib+VGG Face实现两张脸部图像相似度比较
实现思路:1、使用Dlib识别并提取脸部图像2、使用VGGFace模型提取脸部特征3、使用余弦相似度算法比较两张脸部图像的特征代码如下:importtimeimportnumpyasnpimportsklearnimportsklearn.metrics.pairwiseaspw
Wesley13 Wesley13
4年前
2. 文本相似度计算
1\.文本相似度计算文本向量化(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.cnblogs.com%2Fhuangyc%2Fp%2F9785420.html)2\.文本相似度计算距离的度量(https://www.oschina.net/a
向量数据库落地实践
一、前言本文基于京东内部向量数据库vearch进行实践。Vearch是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见:https://github.com/vearch/zhdocs/blob/v3.3.X/docs/source/overv
一种融合指代消解序列标注方法在中文人名识别上的应用(下)
二、使用了BERT模型和指代消解算法:加入BERT语言预处理模型,获取到高质量动态词向量。融入指代消解算法,根据指代词找出符合要求的子串/短语。【2】融入指代消解算法,根据指代词找出符合要求的子串/短语指代消解算法如图2所示,简单来说,就是考虑文档中子串/
AGIC.TWang AGIC.TWang
1年前
关于RAG
检索增强生成(RAG)为大型语言模型赋予访问外部知识库的能力,提升其精准性和实用性。它包含三个步骤:检索、增强和生成。RAG通过向量数据库进行语义搜索,克服了传统关键词匹配的局限性。文章以云计算促进人工智能发展为例,在大模型分发助手平台上演示了RAG的实际流程,包括知识准备、知识切割、向量化、提问、相似度计算、提示词构建和答案生成。RAG的未来在于提升精准性、个性化、可扩展性、可解释性和成本效益,最终实现更深入的知识理解和推理,更自然的人机交互以及更广泛的领域应用。
递归神经网络(RNN)
递归神经网络(RNN)RNN是最强大的模型之一,它使我们能够开发如分类、序列数据标注、生成文本序列(例如预测下一输入词的SwiftKeykeyboard应用程序),以及将一个序列转换为另一个序列(比如从法语翻译成英语的语言翻译)等应用程序。大多数模型架构(如前馈神经网络)都没有利用数据的序列特性。例如,我们需要数据呈现出向量中每个样例的特征,如表示句子、段
生成对抗网络GAN简介
生成对抗网络(GenerativeAdversarialNetworks,GAN)是一种深度敏感词模型,用于生成具有高度逼真度的新数据,如图像、音频、文本等。GAN是由IanGoodfellow等人在2014年提出的,其核心思想是通过两个神经网络,即生成器和判别器,相互竞争和协作来实现数据生成的目的。GAN的基本框架和训练过程如下图所示:
递归神经网络(RNN)
递归神经网络(RNN)RNN是最强大的模型之一,它使我们能够开发如分类、序列数据标注、生成文本序列(例如预测下一输入词的SwiftKeykeyboard应用程序),以及将一个序列转换为另一个序列(比如从法语翻译成英语的语言翻译)等应用程序。大多数模型架构(如前馈神经网络)都没有利用数据的序列特性。例如,我们需要数据呈现出向量中每个样例的特征,如表示句子、段