推荐系统学习笔记(二)

元胞珊瑚
• 阅读 2226

用户画像

用户画像到底是什么?它是对用户信息的向量化表示,就是 User Profile,俗称“用户画像”。用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品。构建用户画像需要下面两个步骤。

1 结构化文本

我们拿到的文本,常常是自然语言描述的,用行话说,就是“非结构化”的,但是计算机在处理时,只能使用结构化的数据索引,检索,然后向量化后再计算;所以分析文本,就是为了将非结构化的数据结构化,好比是将模拟信号数字化一样,只有这样才能送入计算机,继续计算。
从物品端的文本信息,我们可以利用成熟的 NLP 算法分析得到的信息有下面几种。

  • 关键词提取:最基础的标签来源,也为其他文本分析提供基础数据,常用 TF-IDF 和 TextRank。
  • 内容分类:将文本按照分类体系分类,用分类来表达较粗粒度的结构化信息。常用工具FastText
  • 主题模型:从大量已有文本中学习主题向量,然后再预测新的文本在各个主题上的概率分布情况,也很实用,其实这也是一种聚类思想,主题向量也不是标签形式,也是用户画像的常用构成。常用的开源的 LDA 训练工具有 Gensim,PLDA 等
  • 嵌入:“嵌入”也叫作 Embedding,从词到篇章,无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来。

2 标签选择

对物品端的文本进行结构化,得到了诸如标签(关键词、分类等)、主题、词嵌入向量。接下来就是第二步:把物品的结构化信息给用户。一种简单粗暴的办法是直接把用户产生过行为的物品标签累积在一起。

内容推荐算法

对于基于内容的推荐系统,最简单的推荐算法当然是计算相似度即可,用户的画像内容就表示为稀疏的向量,同时内容端也有对应的稀疏向量,两者之间计算余弦相似度,根据相似度对推荐物品排序。

余弦相似度
推荐系统学习笔记(二)

基于用户的协同过滤

背后的思想

你有没有过这种感觉,你遇到一个人,你发现他喜欢的书、喜欢的电影也基本上都是你喜欢的,从此以后,你就想老是想问他:还有什么好推荐的,最近又看了什么书,最近又看了什么电影?这个感觉非常地自然直接,它就是基于用户的协同过滤背后思想。详细来说就是:先根据历史消费行为帮你找到一群和你口味很相似的用户;然后根据这些和你很相似的用户再消费了什么新的、你没有见过的物品,都可以推荐给你。

处理步骤

1 准备用户向量

理论上可以给每一个用户得到一个向量。为什么要说是“理论上”呢?因为得到向量的前提是:用户需要在我们的产品里有行为数据,否则就得不到这个向量。这个向量有这么三个特点:

  • 向量的维度就是物品的个数
  • 向量是稀疏的,也就是说并不是每个维度上都有数值,原因当然很简单,这个用户并不是消费过所有物品
  • 向量维度上的取值可以是简单的 0 或者 1,也就是布尔值,1 表示浏览过,0 表示没有。

2 用每一个用户的向量,两两计算用户之间的相似度,设定一个相似度阈值或者设定一个最大数量,为每个用户保留与其最相似的用户。

这里我们同样采用余弦相似度进行计算

3 为每一个用户产生推荐结果。

把和他相似的用户们浏览过的物品汇总起来,去掉用户自己已经看过的物品,剩下的排序输出就是推荐结果。具体的汇总方式我们用一个公式来表示。
推荐系统学习笔记(二)
等号左边就是计算一个物品 i 和一个用户 u 的匹配分数,等号右边是这个分数的计算过程,分母是把和用户 u 相似的 n 个用户的相似度加起来,分子是把这 n 个用户各自对物品 i 的态度,按照相似度加权求和。这里的态度最简单就是 0 或者 1,1 表示喜欢过,0 表示没有,如果是评分,则可以是 0 到 5 的取值。整个公式就是相似用户们的态度加权平均值。

本文根据 刑无刀的推荐系统三十六式 整理而来

点赞
收藏
评论区
推荐文章
Jacquelyn38 Jacquelyn38
4年前
这样构建的用户画像!想不懂你的用户都难
导读:产品研发团队犯的常见错误之一是对用户没有足够的了解,就开始提需求或设计产品。在收集到大量用户信息后,产品研发团队需要通过这些信息创建目标用户的画像,以便更深入地了解用户,进而实现以用户为中心设计产品。在用户研究领域,用户画像的对应英文单词有两个,分别是UserProfile和Persona。为了便于区分,我们将UserProfile翻译成用户
Wesley13 Wesley13
3年前
IP地址定位之IP画像——如何形成IP用户画像?
IP用户画像系统的研究内容,包含采集IP用户的网络行为数据、对IP知识库进行特征提取等。那么我们如何形成用户画像?如图1所示,以在线广告领域的应用为例,介绍IP用户画像的形成流程,一共分为四步。!image.png(https://oscimg.oschina.net/oscnet/up1b0a82a7ce8647ce500b822e4bc8731
Stella981 Stella981
3年前
Flink+ClickHouse构建亿级电商用户画像平台(PC、移动、小程序)
FlinkClickHouse构建亿级电商用户画像平台(PC、移动、小程序)完整版131节,2020年10月新课本课程采用FlinkClickHouse技术架构实现我们的画像系统,通过学习完本课程可以节省你摸索的时间,节省企业成本,提高企业开发效率。希望本课程对一些企业开发人员和对新技术栈有兴趣的伙伴有所帮助,如对我录制的教程内容有建议请及时
画像系统人群服务数据存储架构的演进与创新| 京东云技术团队
一、画像系统命中接口相关简介什么是画像系统标签画像系统是一种数据管理和分析工具,它通过整合和分析用户的行为数据、交易数据、社交数据等多维度信息,构建出用户的详细画像,帮助咱们运营人员更好地理解目标用户群体,从而实现精准营销和精细化运营。提供了那些能力:标签
用户标签属性流程处理方法
用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像算法普遍存在的问题是数据源较少、数据特征不明显、处理效率低下、分析维度单薄。