盘点一个Pandas数据清洗题目

Python进阶者 等级 74 0 0

大家好,我是皮皮。

一、前言

前几天在Python白银交流群有个叫【冻豺】的粉丝问了一道Python清洗数据的问题,这里拿出来给大家分享下,一起学习下。

盘点一个Pandas数据清洗题目

如何才能把pandas serise里乱七八糟的字符清理干净呢?

二、解决过程

【dcpeng】解答

这里给出了一个示例的代码,使用了applylambda和正则表达式,一气呵成,只需要稍微修改下,匹配自己的数据就可以了。

df['主营业务']=df['主营业务'].astype('str').apply(lambda x: re.sub('[0-9+,,.。…、“”^_?::’‘''""()();;【】!!*?]+', '', x))

盘点一个Pandas数据清洗题目

不过这个是通用的,也会把数字干掉,如果想适配自己的数据,还需要稍微修改下。

盘点一个Pandas数据清洗题目

这样问题就完美解决了,另外的话,遇到特殊字符什么的,都可以优先使用re.sub或者replace()函数,事半功倍。

三、总结

大家好,我是皮皮。这篇文章主要分享了一个Pandas数据清洗题目,针对该问题给出了具体的解析和代码演示,一共两个方法,帮助粉丝顺利解决了问题。相信肯定还有其他方法的,欢迎大家积极尝试,如果有好方法,记得也分享给我噢,我帮助分享到群里,大家一起学习交流!

最后感谢【冻豺】提问,感谢【dcpeng】和【月神】大佬给出的具体解析和代码演示,感谢【冯诚】等人参与学习交流。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

收藏
评论区

相关推荐

Pandas案例精进 | 自动分割汇总表写入到子表
(https://imghelloworld.osscnbeijing.aliyuncs.com/f5b70d401be96176067dfe8304143ead.png) 大家好! 欢迎来到「Pandas案例精进」专栏 今天分享的是一个之前的案例,里面涉及的方法可能有些过时,但处理思想仍有较高的参考价值。 Pandas案例需求
Pandas统计分析基础(基础篇,新手必看)
Pandas统计分析基础Pandas(Python Data Analysis Library)是基于NumPy的数据分析模块,它提供了大量标准数据模型和高效操作大型数据集所需的工具,可以说Pandas是使得Pyth
Pandas数据载入与预处理(详细的数据Python处理方法)
Pandas数据载入与预处理对于数据分析而言,数据大部分来源于外部数据,如常用的CSV文件、Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据格式,处理完成后再存储到相应的外部文件
Python数据分析实战(2)使用Pandas进行数据分析
一、Pandas的使用 1.Pandas介绍Pandas的主要应用包括: 数据读取 数据集成 透视表 数据聚合与分组运算 分段统计 数据可视化Pandas的使用很灵活,最重要的两个数据类型是DataFrame和Series。对DataFrame最直观的理解是把它当成一个Excel表格文件,如下:索引是从0开始的,也
分享5个高效的pandas函数!
熟练掌握pandas函数都能帮我们在数据分析过程中节省时间。pandas还有很多让人舒适的用法,这次就为大家介绍5个pandas函数!本文来源towardsdatascience,作者Soner Yıldırım,由Python大数据分析编译。1\. explodeexplode用于将一行数据展开成多行。比如说dataframe中某一行其中一个元素包含多个同
天秀!一张图就能彻底搞定Pandas!
大家好,在三月初,我曾给大家分享过一份Matplotlib绘图小抄,详见昨天在面向GitHub编程时,无意发现了Pandas官方竟提供了同款小抄,项目地址如下https://github.com/pandasdev/pandas/blob/master/doc/cheatsheet/PandasCheatSheet.pdf 可以看到这份小抄提供了PPT和P
Pandas专家总结:指定样式保存excel数据的 “N种” 姿势!
作者:小小明 简介:Pandas数据处理专家,10余年编码经验,至今已帮助过百名以上数据从业人员解决工作实际遇到的问题,其中数据处理和办公自动化问题涉及的行业包括会计、审计、HR、气象工作人员、教师、律师、运营,以及各行业的数据分析师和专做数据分析案例的公众号号主。 若你在数据处理的问题上遇到什么困难,欢迎与我交流。目录 准备数据
14个pandas神操作,手把手教你写代码
「数仓宝贝库」,带你学数据!导读: Pandas是Python数据分析的利器,也是各种数据建模的标准工具。本文带大家入门Pandas,将介绍Python语言、Python数据生态和Pandas的一些基本功能。 在Python语言应用生态中,数据科学领域近年来十分热门。作为数据科学中一个非常基础的库,Pandas受到了广泛关注。Pandas可以将现实中来
14个pandas神操作,手把手教你写代码
「数仓宝贝库」,带你学数据!导读:Pandas是Python数据分析的利器,也是各种数据建模的标准工具。本文带大家入门Pandas,将介绍Python语言、Python数据生态和Pandas的一些基本功能。 在Python语言应用生态中,数据科学领域近年来十分热门。作为数据科学中一个非常基础的库,Pandas受到了广泛关注。Pandas可以将现实中来源
DataFrame与shp文件相互转换
因为习惯了使用pandas的DataFrame数据结构,同时pandas作为一个方便计算和表操作的数据结构具有十分显著的优势,甚至很多时候dataFrame可以作为excel在使用,而在用python操作gis的shp文件时很不顺畅,不太符合使用习惯,故写了一个DataFrame与arcgis地理文件相互转换的函数,这个处理起来可以节约大量的思考时间。 S
Panda处理文本和时序数据?首选向量化
导读 Pandas作为Python数据分析的首选框架,不仅功能强大接口丰富,而且执行效率也相比原生Python要快的多,这是得益于Pandas底层由C实现,同时其向量化执行方式也非常利于并行计算。更重要的是,这种向量化操作不仅适用于数值计算,对于文本和时间格式也有着良好的支持,而这就不得不从Pandas的属性接口谈起。 [**腾讯课堂 |
Python 数据分析包:pandas 基础
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下: lang:pytho
Python在网页上展示表格的简单方法
![](https://oscimg.oschina.net/oscnet/22596eed-3e2a-4708-acc1-bc8a22f8588d.jpg) * Python是当今最热门的编程语言 * Pandas是Python下最热门的数据处理与数据分析的库 * Flask是Python下方便简洁的Web开发框架
Python实现数据分析(四)
Pandas ------ **关键词: 数据分析库** **官网**:[https://pandas.pydata.org/](https://www.oschina.net/action/GoToLink?url=https%3A%2F%2Fpandas.pydata.org%2F) **介绍(选自-百度百科)**: pandas 是基于NumP
Pandas入门教程
大家好,我是皮皮。其实这个pandas教程,卷的很严重了,才哥,小P等人写了很多的文章,这篇文章是粉丝【古月星辰】投稿,自己学习过程中整理的一些基础资料,整理成文,这里发出来给大家一起学习。 Pandas入门本文主要详细介绍了pandas的各种基础操作,源文件为zlJob.csv,可以私我进行获取,下图是原始数据部分一览。pandas官网:https://p