Pandas案例精进 | 结构化数据非等值范围查找 ① - HelloWorld开发者社区

Pandas案例精进 | 结构化数据非等值范围查找 ①

Aidan075

2021-03-15 13:45 • 阅读 1599

Pandas案例精进 | 结构化数据非等值范围查找 ①

大家好，我是小五🐶

欢迎来到「Pandas案例精进」专栏，点击蓝字查看全部

Pandas案例需求

有两张表，A表记录了很多款产品的三个基础字段，分别是产品ID，地区代码和重量：
Pandas案例精进 | 结构化数据非等值范围查找 ①
B表是运费明细表，这个表结构很“业务”。每行对应着单个地区，不同档位重量，所对应的运费：

Pandas案例精进 | 结构化数据非等值范围查找 ①

比如121地区，0-0.5kg的产品，运费是5.38元；2.01（实际应该是大于1）-3kg，运费则是5.44元。
现在，我们想要结合A表和B表，统计出A表每个产品付多少运费，应该怎么实现？
可以先自己思考一分钟!

解题思路

人海战术

任何数据需求，在人海战术面前都是弟弟。

A表一共215行，我们只需要找215个人，每个人只需要记好自己要统计那款产品的地区代码和重量字段，然后在B表中根据地区代码，找到所在地区运费标准，然后一眼扫过去，就能得到最终运费了。

两个“只需要”，问题就这样easy的解决了。

问题变成了，我还差214个人。

解构战术

通过人海战术，我们其实已经明确了解题的朴素思路：根据地区代码和重量，和B表匹配，返回运费结果。

难点在于，B表是偏透视表结构的，运费是横向分布，用Pandas就算用地区代码匹配，还是不能找到合适的运费区间。

怎么办呢？

如果我们把B表解构，变成“源数据”格式，问题就全部解决了：

Pandas案例精进 | 结构化数据非等值范围查找 ①

转换完成后，和A表根据地区代码做一个匹配筛选，答案就自己跑出来了。
下面是动手时刻。

具体实现

先导入数据，A表（product）：

Pandas案例精进 | 结构化数据非等值范围查找 ①

B表（cost）：

Pandas案例精进 | 结构化数据非等值范围查找 ①

要想把B表变成“源数据”的格式，关键在于理解stack()堆叠操作，结合示例图比较容易搞懂：

Pandas案例精进 | 结构化数据非等值范围查找 ①

通过stack操作，把多列变为单列多行，原本的2列数据堆成了1列，从而方便了一些场景下的匹配。要变回来也很简单，unstack即可：

Pandas案例精进 | 结构化数据非等值范围查找 ①

在我们的具体场景中，先指定好不变的索引列，然后直接上stack：

Pandas案例精进 | 结构化数据非等值范围查找 ①

这样，就得到了我们目标的源数据。接着，A表和B表做匹配：

Pandas案例精进 | 结构化数据非等值范围查找 ①

值得注意的是，因为我们根据每个地方的重量区间做了堆叠，这里的匹配结果，每个产品保留了对应地区，所有重量区间的价格，离最终结果还有一步之遥。
需要把重量区间做拆分，从而和产品重量对比，找到对应的重量区间：

Pandas案例精进 | 结构化数据非等值范围查找 ①

接着，根据重量的最低、最高区间，判断每一行的重量是否符合区间：

Pandas案例精进 | 结构化数据非等值范围查找 ①

最后，筛选出符合区间的产品，及对应的价格等字段：

Pandas案例精进 | 结构化数据非等值范围查找 ①

大功告成！

本文代码和案例数据

如果大家想自己练手，可以通过以下步骤获取代码及案例数据👇

Pandas案例精进 | 结构化数据非等值范围查找 ①

扫描下方二维码👇添加我的微信（朱小五mini）为好友，然后回复关键词“20210311”，关键词是前面的红色数字，建议长按复制！

Pandas案例精进 | 结构化数据非等值范围查找 ①

最后，埋个坑！

我们其实还用了另外**两种**算法进行性能提升，保持关注，我们下期更新！

「Pandas案例精进」专栏，点击蓝字查看全部

Pandas案例精进 | 结构化数据非等值范围查找 ①

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/p97rbWgpYPhwtS-45bskOA，可扫描二维码进行关注： Pandas案例精进 | 结构化数据非等值范围查找 ① 如有侵权，请联系删除。

pandas https Python Python Python

点赞

收藏

评论区

Aidan075

Lv1

千里黄云白日曛，北风吹雁雪纷纷。

文章

128

粉丝

2

获赞

7

热门文章

收藏这些API，获取网易云音乐数据超轻松

自动化办公 | 批量将Excel中的url链接转成图片

2021最全Python入门学习路线

我用python算出了同事的身份证号码！

不好意思，它就是电影票房榜上的烂片！