【NLP系列】Bert词向量的空间分布
我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于Word2Vec、Glove等并没有明显的提升
Stella981 Stella981
2年前
C++ Eigen3实现Hatree
结合之前Matlab设计出来的向量化算法,实现了HatreeFork算法HatreeFork计算过程voidHatree_Fork(std::vector<double&ks,Eigen::MatrixXdN_up_avg,Eigen::MatrixXdN_down_avg,intncc){autoI
Wesley13 Wesley13
2年前
mysql 实现 上一行减去下一行
方法1:通过行号来进行加减1.新建表1添加自增行号列(考虑到自增id有丢失数据现象)2.复制上表1为表23.根据表1、表2行号进行where或者leftjoinon的处理\where进行处理的条件为表1表2完全的匹配\leftjoinon处理的条件为 左表完全的匹配设置内存变量
Stella981 Stella981
2年前
Python获取并输出当前日期时间
1234567取得当前时间戳importtimeprinttime.time()格式化时间戳为标准格式printtime.strftime('%Y.%m.%d',time.localtime(time.time()))获取30天前的时间(通过加减秒数来获取现在或者未来某个时间点)printtime.strftime('%Y.
Stella981 Stella981
2年前
Panda处理文本和时序数据?首选向量化
导读Pandas作为Python数据分析的首选框架,不仅功能强大接口丰富,而且执行效率也相比原生Python要快的多,这是得益于Pandas底层由C实现,同时其向量化执行方式也非常利于并行计算。更重要的是,这种向量化操作不仅适用于数值计算,对于文本和时间格式也有着良好的支持,而这就不得不从Pandas的属性接口谈起。腾讯课堂|
Wesley13 Wesley13
2年前
0304 直播报名|向量索引算法介绍与优化
想做向量搜索确又不知道该选择什么索引吗?怎么样可以又快又准又最不占内存?相信这个问题很多Milvus用户都非常想知道。然而,在不同的应用场景下该如何选择一种合适的索引并非显而易见,需要在资源使用量、查询效率、查询召回率等多个指标中做权衡。!(https://oscimg.oschina.net/
Stella981 Stella981
2年前
Scala函数式对象
有理数类的表示实现规范:支持有理数的加减乘除,并支持有理数的规范表示1.定义Rational首先,考虑用户如何使用这个类,我们已经决定使用“Immutable”方式来使用Rational对象,我们需要用户在定义Rational对象时提供分子和分母。classRation
Stella981 Stella981
2年前
Python Numpy 向量、矩阵的常用创建方法
1\.numpy.array()该方法可以直接定义一个向量或矩阵测试代码importnumpyasnpvectornp.array(1,2,3,4)metrixnp.array(1,2,3,4,
Stella981 Stella981
2年前
Spark OneHotEncoder
1、概念独热编码(OneHotEncoding) 将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。对于字符串类型的输入数据,通常首先使用StringIndexer
Stella981 Stella981
2年前
Python使用Faiss库实现向量近邻搜索
本文是Python应用于推荐系统领域的技术文章。Embedding的近邻搜索是当前图推荐系统非常重要的一种召回方式,通过item2vec、矩阵分解、双塔DNN等方式都能够产出训练好的userembedding、itemembedding,对于embedding的使用非常的灵活:输入userembedding,近邻搜索it