4款Pandas自动数据分析神器

比特探微
• 阅读 160

我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。

了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Exploratory Data Analysis,探索性数据分析)。

如果你现在做EDA还在用pandas一行行写代码,那么福音来了!

目前已经有很多EDA工具可以自动产出基础的统计数据和图表,能为我们节省大量时间。

本文会对比介绍 4 款常用的EDA工具,最后一款绝了,完全是抛弃代码的节奏。

正式介绍这些工具之前,先来加载数据集

import numpy as np
import pandas as pd
iris = pd.read_csv('iris.csv')
iris

4款Pandas自动数据分析神器

iris是下面用到的数据集,是一个150行 * 4列的 DataFrame。

1. PandasGUI

PandasGUI提供数据预览、筛选、统计、多种图表展示以及数据转换。

# 安装
# pip install pandasgui
from pandasgui import show

show(iris)

4款Pandas自动数据分析神器

PandasGUI操作界面

PandasGUI更侧重数据展示,提供了10多种图表,通过可视的方式配置。

但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据转换部分也只开放了一小部分接口。

2. Pandas Profiling

Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

# 安装:
# pip install -U pandas-profiling
# jupyter nbextension enable --py widgetsnbextension

from pandas_profiling import ProfileReport

profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
profile

4款Pandas自动数据分析神器

Pandas Profiling操作界面

每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

与 PandasGUI 相反,Pandas Profiling没有丰富的图表,但提供了非常多的统计指标以及相关系数。

3. Sweetviz

SweetvizPandas Profiling类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

# 安装
# pip install sweetviz

import sweetviz as sv

sv_report = sv.analyze(iris)
sv_report.show_html()

4款Pandas自动数据分析神器

Sweetviz操作界面

Sweetviz还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

4款Pandas自动数据分析神器

Sweetviz数据集对比

蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

4. dtale

最后重磅介绍dtale,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、转换。

4款Pandas自动数据分析神器

dtale操作界面

dtale的功能主要分为三部分:数据操作数据可视化高亮显示

4.1 数据操作(Actions)

dtalepandas的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。

# pip install dtale

import dtale

d = dtale.show(iris)
d.open_browser()

4款Pandas自动数据分析神器

Actions

右半部分图是左边图的中文翻译,用的是 Chrome 自动翻译,有些不是很准确。

举一个数据操作的例子。

4款Pandas自动数据分析神器

Summarize Data

上图是Actions菜单中Summarize Data的功能,它提供了对数据集汇总操作的接口。

上图我们选择按照species列分组,计算sepal_width列的平均值,同时可以看到左下角dtale已经自动为该操作生成了pandas代码。

4.2 数据可视化(Visualize)

提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。

4款Pandas自动数据分析神器

Visualize

举一个数据可视化的例子。

4款Pandas自动数据分析神器

Describe

上图是Visualize菜单中Describe的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。

右侧的Code Export可以查看生成这些数据的代码。

4.3 高亮显示(Highlight)

对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。

4款Pandas自动数据分析神器

Highlight

4款Pandas自动数据分析神器

上图显示了将sepal_width字段的异常值。

dtale非常强大,功能也非常多,大家可以多多探索、挖掘。

最后,简单总结一下。如果探索的数据集侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas ProfilingSweetviz;如果需要做深度的数据探索,那就选择dtale

以上就是本次分享的所有内容,如果你觉得文章还不错,欢迎关注公众号:Python编程学习圈,每日干货分享,发送“J”还可领取大量学习资料。或是前往编程学习网,了解更多编程技术知识。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Irene181 Irene181
4年前
手把手教你用pandas处理缺失值
导读:在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列。本文将讨论用于缺失值处理的工具。缺失数据会在很多数据分析应用中出现。pandas的目标之一就是尽可能无痛地处理缺失值。作者:韦斯·麦金尼(WesMcKinney)译者:徐敬一来源:大数据DT(ID:hzdashuju)pandas对象的所有描述
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Irene181 Irene181
4年前
手把手教你用pandas处理缺失值
导读:在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列。本文将讨论用于缺失值处理的工具。缺失数据会在很多数据分析应用中出现。pandas的目标之一就是尽可能无痛地处理缺失值。作者:韦斯·麦金尼(WesMcKinney)译者:徐敬一来源:大数据DT(ID:hzdashuju)pandas对象的所有描述
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Aidan075 Aidan075
4年前
如何用python进行数据分析——00环境配置
↑一个宝藏公众号,长的好看的人都关注了 简单介绍一下Python吧Python是一种面向对象程序设计语言,由荷兰人吉多·范罗苏姆于1989年底发明。目前是最常用也是最热门的一门编程语言之一,应用非常广泛。(不是这个面对对象)为什么选择python呢?有人说python是万能的,除了生孩子不会,什么都会。有人说python是未来
Aidan075 Aidan075
4年前
如何用python进行数据分析——00环境配置
↑一个宝藏公众号,长的好看的人都关注了 简单介绍一下Python吧Python是一种面向对象程序设计语言,由荷兰人吉多·范罗苏姆于19
Easter79 Easter79
3年前
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用springdataredis存储数据时乱码rediskey/value出现\\xAC\\xED\\x00\\x05t\\x00\\x05问题分析:查看RedisTemplate类!(https://oscimg.oschina.net/oscnet/0a85565fa
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(