数据偏度介绍和处理方法

CodeAdventurerX
• 阅读 811

偏度(skewness)是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部(tail)在平均值的哪一侧更重或更长。偏度可以帮助我们了解数据的偏斜性质,即数据相对于平均值的分布情况。

有时,正态分布倾向于向一边倾斜。这是因为数据大于或小于平均值的概率更高,因此使得分布不对称。这也意味着数据不是均匀分布的。

偏度可以与其他描述性统计一起描述变量的分布。通过偏度也可以判断变量是否为正态分布。因为正态分布的偏度为零,是许多统计过程的假设。

偏度分类

分布可以有右偏度(或正偏度)、左偏度(或负偏度)或零偏度。右偏态分布在其峰值的右侧较长,而左偏态分布在其峰值的左侧较长。

1、零偏度

—当一个分布的偏度为零时,它是对称的。它的左右两边是镜像。正态分布的偏度为零,但不是只有正态分布的偏度为零。任何对称分布,如均匀分布或某些双峰分布,偏度都是零。

检查变量是否具有倾斜分布的最简单方法是将其绘制成直方图。

数据偏度介绍和处理方法

分布近似对称,观测值在峰值的左右两侧分布相似。因此分布的偏度近似为零。

在零偏度的分布中,平均值和中位数是相等的,也就是说:

mean = median

2、右偏(正偏)

右偏分布在其峰值的右侧比其左侧更长。右偏也被称为正偏。它表明在分布的极端一端有观测值,但它们相对较少。右偏分布的右侧有一条长尾。

数据偏度介绍和处理方法

分布是右偏的,因为它在峰值右侧的时间更长。右偏分布的均值几乎总是大于中位数。这是因为极值(尾部的值)对均值的影响大于中位数。

mean > median

3、左偏(负偏)

左偏分布的峰值左侧比右侧更长。左偏分布的左侧有一条长尾。左偏也被称为负偏。

数据偏度介绍和处理方法

这个分布是左偏的,因为它在峰值的左侧更长。左偏分布的均值几乎总是小于中位数。

mean < median

偏度计算

有几个公式可以用来测量偏度。其中最简单的是皮尔逊中值偏度。它就是利用了上面我们说的偏态分布中均值和中位数不相等来计算的。

数据偏度介绍和处理方法

皮尔逊中位数偏度是计算均值和中位数之间有多少个标准差。

真实的观测很少有刚好为0的皮尔逊偏中值。因为如果数据的值接近于0,则可以认为它具有零偏度,但是在实际数据中很少有没有零偏度的分布数据。

例如,我们每年观测到的太阳黑子数量的Pearson中位数偏度:平均值= 48.6,中位数= 39,标准差= 39.5。那么公式如下:

数据偏度介绍和处理方法

如果该值介于:

·-0.5和0.5,值的分布几乎对称

·-1和-0.5之间为负偏斜,0.5到1之间为正偏斜。偏度适中。

·如果偏度小于-1(负偏)或大于1(正偏),则数据是高度偏斜。

如何处理有偏度数据

如果你的统计过程需要正态分布并且你的数据是倾斜的,你通常有三个选择:

  • 什么也不做:许多统计检验,包括t检验、方差分析和线性回归,对偏斜数据不太敏感。特别是如果偏斜是轻微或中度的,最好的办法就是忽略它。
  • 数据转换:通过对数据应用某种变换,可以调整数据的分布形状,使其更接近对称分布。常见的数据转换方法包括取对数、开方、平方根等。这些转换可以减小或消除数据的偏度。
  • 使用不同的模型:你可能想选择一个不假设正态分布的模型,非参数测试或广义线性模型可能更适合您的数据。比如说非参数方法:如果数据的偏度较大,而且无法通过简单的转换来纠正,可以考虑使用非参数统计方法。非参数方法不依赖于分布的假设,而是直接对数据进行分析,例如使用中位数作为代表性的位置测度,而不是平均值。
  • 分组分析:如果数据集中存在明显的子群体,可以考虑对数据进行分组分析。通过将数据分成多个子群体,并对每个子群体进行单独的分析,可以更好地了解数据的特征和偏度情况。
  • 针对特定问题采取相应的方法:根据具体的数据和分析目的,可以采用特定的方法来处理偏度数据。例如,在回归分析中,可以使用偏度稳定转换(skewness-stabilizing transformation)来调整数据的偏度,以满足回归模型的假设。

下表总结了一些常用数据变换:

数据偏度介绍和处理方法

总结

数据的偏度是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部在平均值的哪一侧更重或更长。通过计算偏度,可以更好地了解数据的分布特征,并在需要时采取适当的数据处理或分析方法。但是需要注意的是,偏度只是数据分布的一种度量,不能完全代表数据的整体特征,因此在分析数据时需要综合考虑其他统计指标和可视化方法。

https://avoid.overfit.cn/post/357fff159a5f41e68be87e56d6530726

作者:Dhaval Raval

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Karen110 Karen110
4年前
人工智能数学基础4:离差、平均差、方差、标准差、协方差、皮尔森相关系数
一、离差(Deviation)离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标,常写作:即参与计算平均数的变量值与平均数之差。离差的性质有二:(1)离差的代数和等于0;(2)参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值
Stella981 Stella981
4年前
Python+Selenium自动化篇
本篇文字主要学习selenium定位页面元素的集中方法,以百度首页为例子。0.元素定位方法主要有:id定位:find\_element\_by\_id('')name定位:find\_element\_by\_name('')class定位:find\_element\_by\_class\_name(''
Easter79 Easter79
4年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
4年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
4年前
AI研习丨针对长尾数据分布的深度视觉识别
  !(http://dingyue.ws.126.net/2020/0812/714a3e94j00qey3su000xd000q100dup.jpg)  摘要  本文介绍了目前国内外关于长尾数据分布下深度视觉识别的研究进展,主要从常用数据集及应用、经典机器学习解决方案和深度学习解决方案三个维度进行梳理和分析,并针对长尾数据分布的
CodeAdventurerX
CodeAdventurerX
Lv1
春眠不觉晓,处处闻啼鸟。夜来风雨声,花落知多少!
文章
5
粉丝
0
获赞
0