使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

独角龙
• 阅读 996

简介: 本文介绍如何使用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。
作者:冯加亮 阿里云开源大数据平台技术工程师

本文介绍如何使用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。

内容要点:

在当下的信息化时代,用户每天都会收到媒体投放的广告信息,如何做到精准广告投放,可以通过分析广告产出结果来合理分配广告渠道。
归因分析(Attribution Analysis):通过归因分析模型,分析不同渠道的店铺客流量数据,量化评估影响客户消费的活动因子。
面对多且杂的数据,Databricks 如何通过一站式数据分析平台和 Delta Lake 架构简化执行过程。

1.png

一、数据ETL
2.png

本文通过归因分析模型,分析不同渠道下的NewYork City快餐店的人流量数据,量化影响人们去快餐店消费的主要活动因子。

首先,从不同的媒体网站,获取分析需要的人流量的数据,模拟SafeGraph月度的人流量数,将数据存储到Bronze层。然后,进行数据清洗,将每月的时间序列数据,每日访问次数,存储到Silver层,将影响快餐店人流量的数据汇总至Gold层,进行进一步校验,确定是否满足要求。

3.png

接下来,对相关字段进行筛选,筛选出需要的字段,将店铺每日访问的人流量展示出来。

本文的数据是8月店铺的人流量,如果进行机器学习模型训练,还需要引入不同快餐店的人流量数据,来丰富该数据工程。

4.png

为了丰富数据工程,数据工程师创建了赛百味的fastfood数据集,模拟广告投放、社交媒体、门户网站的流量参数,将人流量的具体情况,默认到这个food traffic表中。

5.png

通过调用谷歌的Google Trends API,来丰富food traffic的数据。然后,将聚合后的数据写入delta gold table里,完成数据的ETL工作。

Google Trends,即常说的谷歌趋势,是谷歌基于搜索数据推出的一款分析工具。它通过分析谷歌搜索引挚每天数十亿的搜索数据,告诉用户某一关键词或者话题,各个时期在谷歌搜索引擎中展示的频率及其相关统计数据。

二、机器学习
6.png

完成ETL的相关工作之后,进入机器学习模块,将不同来源的人流量数据,统一到Data Lake架构里。通过数据清洗,得到需要的数据。然后,对数据进行校验,确定是否满足机器学习的模型训练需求。

7.png

通过使用预测模型,量化不同渠道的人流量,对最终消费进行预测。

接下来,利用模型,整合各个媒介渠道影响客流量的百分比,对广告投放的优化提出可行性的见解。

如上图所示,第一张表是整个纽约州不同城市间的人流分布图,第二张表是New York City的人流分布图。通过上图,可以直观看到不同城市间的人流量差距较大,所以要对纽约州的每个城市进行单独的分析。

8.png

接下来,使用Plot features对数据进行校验,使用Pandas数据框进行数据搜索,数据解析。

9.png

通过Python绘图,可以看到数据的分布情况,比如广告投放的连续情况,以及社交媒体网站的浏览情况。

10.png

完成上述操作后,对数据集的整体分布进行校验,得出feature分布符合预期。综上所述,该数据集满足Xgboost学习训练的要求。

11.png

接下来,使用Xgboost机器学习框架进行训练。通过调整参数,选择一个相对损失较小的训练模型,对该模型进行实际预测,从上图可以看到,红色线是预测结果,蓝色线是真实的客户流量。

12.png

通过该模型进行实际预测,得出社交媒体对客流量的影响,占总体的50.7%,网页浏览对客流量的影响,占总体的39%。故得出,不同渠道的广告对客流的影响,真实有效。

13.png

综上所述,利用SHAP模型整合各媒介渠道客流的百分比,通过绘制图表,能够准确找到影响客流量最大的因子。社交媒体和home页面访问是推动客流量最有效的渠道,所以预算分配可以有的放失,从而提高整体销售或市场份额。

三、Demo演示
操作演示视频

https://developer.aliyun.com/...

产品技术咨询

https://survey.aliyun.com/app...

原文链接:http://click.aliyun.com/m/100...

本文为阿里云原创内容,未经允许不得转载。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏
简介: 本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景的最佳实践,揭秘FlinkHologres流批一体首次落地阿里双11营销分析大屏背后的技术考验。_概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪
Stella981 Stella981
3年前
Spark如何与深度学习框架协作,处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片、音频、文本)进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。Spark介绍Spark是大规模数据处理的事实标准,包括机器学习的操
Wesley13 Wesley13
3年前
APP渠道:APP渠道归因的探索及一点思考
!(https://oscimg.oschina.net/oscnet/3b823d1a37ec21075a65979133517f356c5.jpg)APP渠道归因之痛APP分析与网站分析最大的不同之处在于:在网站端完成渠道归因那是轻松简单加愉快,但APP的渠道归因却是个巨大无比的坑。这个坑有多大呢?有专门做APP渠道归因的公司,做到被
Wesley13 Wesley13
3年前
AI研习丨针对长尾数据分布的深度视觉识别
  !(http://dingyue.ws.126.net/2020/0812/714a3e94j00qey3su000xd000q100dup.jpg)  摘要  本文介绍了目前国内外关于长尾数据分布下深度视觉识别的研究进展,主要从常用数据集及应用、经典机器学习解决方案和深度学习解决方案三个维度进行梳理和分析,并针对长尾数据分布的
京东云开发者 京东云开发者
11个月前
chatglm2-6b在P40上做LORA微调
背景:目前,大模型的技术应用已经遍地开花。最快的应用方式无非是利用自有垂直领域的数据进行模型微调。chatglm26b在国内开源的大模型上,效果比较突出。本文章分享的内容是用chatglm26b模型在集团EA的P40机器上进行垂直领域的LORA微调。一、c
小白学大数据 小白学大数据
1个月前
Python爬虫实战:快手数据采集与舆情分析
1.引言在短视频时代,快手作为国内领先的短视频平台之一,积累了海量的用户数据、视频内容和互动信息。这些数据对市场分析、用户行为研究、舆情监测等具有重要价值。本文将介绍如何使用Python爬虫技术采集快手数据,并基于NLP(自然语言处理)进行简单的舆情分析。
京东云开发者 京东云开发者
1星期前
京东广告基于Apache Doris的冷热数据分层实践
作者:京东零售杨博文一、背景介绍京东广告围绕ApacheDoris建设广告数据存储服务,为广告主提供实时广告效果报表和多维数据分析服务。历经多年发展,积累了海量的广告数据,目前系统总数据容量接近1PB,数据行数达到18万亿行,日查询请求量8,000万次
chatglm2-6b在P40上做LORA微调 | 京东云技术团队
目前,大模型的技术应用已经遍地开花。最快的应用方式无非是利用自有垂直领域的数据进行模型微调。chatglm26b在国内开源的大模型上,效果比较突出。本文章分享的内容是用chatglm26b模型在集团EA的P40机器上进行垂直领域的LORA微调。
绣鸾 绣鸾
1年前
DataSpell 2023 for mac(数据科学IDE)
是一款由ActiveState公司开发的跨平台数据科学和机器学习开发工具,它旨在提供一整套工具和服务,帮助数据科学家和机器学习工程师更加高效地进行数据分析和建模。DataSpell的特点包括:1.适用于不同的编程语言和库:DataSpell支持多种编程语言
绣鸾 绣鸾
1年前
DataSpell 2023 for mac(数据科学IDE)
是一款由ActiveState公司开发的跨平台数据科学和机器学习开发工具,它旨在提供一整套工具和服务,帮助数据科学家和机器学习工程师更加高效地进行数据分析和建模。DataSpell的特点包括:1.适用于不同的编程语言和库:DataSpell支持多种编程语言