参数与非参数检验:理解差异并正确使用

数字逸云
• 阅读 625

数据科学是一个快速发展的领域,它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验,它有助于确定从样本中获得的结果是否可以推广到总体。

在这篇文章中,我们将探讨参数与非参数检验之间的区别,提供示例以更好地理解它们的用例,并总结关键要点。

理解假设检验

假设检验是一种统计方法,用于确定给定结果是由于偶然或特定影响的可能性。它包括制定一个零假设(H0)和一个备选假设(H1),然后使用统计检验来确定哪一个更有可能。

检验的选择取决于数据的特征、变量的分布和检验的假设。这就是参数和非参数测试发挥作用的地方。

参数与非参数检验:理解差异并正确使用

参数检验

参数检验是对数据的基本分布做出某些假设的统计测试。这些检验假定数据呈正态分布、方差相等且样本独立。参数检验通常基于总体参数的假设,例如总体均值、方差等已知或假设的数值,通过样本数据对总体参数进行推断和判断一些常见的参数测试包括:

1、T检验

t 检验用于比较两组的均值。它可以用来判断两个样本的均值是否存在显着差异,例如两个不同班级的平均考试成绩。

2、方差分析(ANOVA)

方差分析用于比较三个或更多组的均值。该检验有助于确定多个群体的的均值之间是否存在任何显着差异,例如比较不同营销策略的性能。

3、皮尔森的相关性

皮尔逊相关是用来衡量两个连续变量之间的线性关系的强度和方向。例如,它可以用来确定学习的小时数和最终的考试成绩之间是否存在关系。

非参数检验

非参数检验是不对数据的基本分布做出任何假设的统计检验。非参数检验则不需要对总体参数进行假设或推断,而是通过对数据的排序、计数等简单操作来进行假设检验。非参数检验方法通常比参数检验方法更加灵活,但也相对更加保守和低效。一些常见的非参数检验包括:

1、Mann-Whitney U检验

Mann-Whitney U 检验也称为Wilcoxon秩和检验。它用于比较两个独立的样本,判断它们是否来自于同一个总体分布。例如,它可用于比较两个社区的收入中位数。

2、Kruskal-Wallis H 检验

Kruskal-Wallis H 检验用于比较三个或以上独立样本的中位数是否相同,也称为方差分析的非参数替代方法。当数据不满足参数检验所需的假设时,它可以替代方差分析,用来比较使用不同产品的客户的满意度。

3、Spearman相关性

Spearman’s Rank Correlation用于度量两个变量之间的相关性。它通过将两个变量的值转换为排名,然后计算这些排名之间的相关性,从而可以处理非线性关系和离群值的影响。例如,它可用于确定运动员在比赛中的排名与其经验年数之间是否存在关系。

如何选择参数和非参数检验

在参数测试和非参数检验之间进行选择取决于几个因素,例如:

  • 数据分布:如果数据呈正态分布,则参数检验更合适,因为它们具有更强的统计能力(更擅长检测显着影响)。如果数据不是正态分布的,则应使用非参数检验,因为它们对数据的假设较少。
  • 样本大小:当样本大小较小时,非参数检验更适合,因为它们对样本分布的假设更少。当样本大小较大时,参数检验更可靠。这是因为非参数检验对违反假设的敏感性较低,而这种情况更可能发生在小样本中。
  • 等方差:参数检验假定各组之间的方差相等。如果数据不是等方差的,则应改用非参数测试。
  • 数据分布的偏斜程度:如果数据分布严重偏斜,则非参数检验可能更可靠,因为它们对分布的假设更少。
  • 检验目的:如果需要检验的是中位数、百分位数、比例等非参数统计量,那么非参数检验更适合。如果需要检验均值、标准差等参数统计量,那么参数检验更可靠。

总结

假设检验是数据科学的基本组成部分,有助于确定从样本中获得的结果是否可以推广到总体。参数检验对数据的基本分布做出假设,例如正态分布、等方差和独立样本。非参数检验更灵活,可以在数据不满足参数检验所需的假设时使用。在参数检验和非参数检验之间进行选择取决于数据的特征、样本大小和检验所做的假设。本文介绍的参数检验的示例包括 t 检验、方差分析和 Pearson 相关性,而非参数检验包括 Mann-Whitney U 检验、Kruskal-Wallis H 检验和 Spearman 等级相关性。

通过了解参数和非参数测试之间的差异以及何时使用每种类型,我们可以在数据分析中做出更明智的决策,最终获得更准确和可靠的结果。

https://avoid.overfit.cn/post/f516ef963cd54d61bc7d702337c69f48

作者:Andrew Austin

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
PhoneGap设置Icon
参考:http://cordova.apache.org/docs/en/latest/config\_ref/images.html通过config.xml中的<icon标签来设置Icon<iconsrc"res/ios/icon.png"platform"ios"width"57"height"57"densi
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
AI金融知识自学偏量化方向
前提:统计学习(统计分析)和机器学习之间的区别金融公司采用机器学习技术及招募相关人才要求第一个问题:  机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集),来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数
Stella981 Stella981
3年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
小万哥 小万哥
1年前
Python 机器学习入门:数据集、数据类型和统计学
机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。数据集在计算机的思维中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。数组的示例:
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这