用python重温统计学基础:离散型概率分布

Aidan075 等级 484 0 0

简单介绍数据的分布形态描述中的离散型概率分布

利用python中的matplotlib来模拟几种分布的图形

在上一篇描述性统计中提到数据分析的对象主要是结构化化数据,而所有的结构化数据可以从三个维度进行描述,即数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述,并对前两个维度进行了介绍。

本篇主要是对数据的分布形态描述中的离散型概率分布进行介绍。

用python重温统计学基础:离散型概率分布

离散型概率分布是一条条垂直于X轴的垂线(或矩形柱),每条垂线与X轴的交点代表事件可能发生的结果,垂线上端点对应的Y轴表示该结果发生的概率(区别于概率密度)。

常见的离散型概率分布有二项分布、伯努利分布和泊松分布等。

二项分布

二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

用python重温统计学基础:离散型概率分布

下面用python中的matplotlib模拟二项分布:

# 利用plt模拟二项分布  
n , p =10 ,0.5  
sample = np.random.binomial(n, p, size=10000)  # 产生10000个符合二项分布的随机数  
bins = np.arange(n + 2)  
plt.hist(sample, bins=bins, align='left',density=True, rwidth=0.5)  # 绘制直方图  
# 设置标题和坐标  
plt.title('Binomial FMF with n={},p={}'.format(n, p))  
plt.xlabel('number of successes')  
plt.ylabel('probability')

用python重温统计学基础:离散型概率分布

伯努利分布

伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)。伯努利试验成功的次数服从伯努利分布,参数p是试验成功的概率。伯努利分布是一个离散型机率分布,是N=1时二项分布的特殊情况

用python重温统计学基础:离散型概率分布

伯努利分布与二项分布之间的关系:

• 伯努利分布是具有单项试验的二项式分布的特殊情况。

• 伯努利分布和二项式分布只有两种可能的结果,即成功与失败。

• 伯努利分布和二项式分布都具有独立的轨迹。

下面用python中的matplotlib模拟二项分布:

# 利用plt模拟伯努利分布  
#解决画图中文乱码  
plt.rcParams['font.sans-serif']=['SimHei']  
plt.rcParams['axes.unicode_minus']=False  
#定义随机变量  
X = np.arange(10)   
p = 0.5  
#伯努利概率函数  
pList = bernoulli.pmf(X,p)  
#绘图,marker:点的形状,linestyle:线条的形状  
plt.plot(X,pList,marker = 'o',linestyle = 'None' )  
#vlines绘制树直线,参数的含义(x轴坐标轴,y轴最小值,y轴最大值)  
plt.vlines(X,0,pList)  
plt.xlabel("随机变量:抛硬币{}次".format(len(X)))  
plt.ylabel("概率")  
plt.title('伯努利分布:p={:.2f}' .format(p))  

用python重温统计学基础:离散型概率分布

泊松分布

泊松分布的概率函数为:用python重温统计学基础:离散型概率分布

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望和方差均为 用python重温统计学基础:离散型概率分布

特征函数为用python重温统计学基础:离散型概率分布

用python重温统计学基础:离散型概率分布

泊松分布与二项分布之间的关系:****

泊松分布在满足以下条件的情况下是二项式分布的极限情况:

• 试验次数无限大或n → ∞。
• 每个试验成功的概率是相同的,无限小的,或p → 0。
• np = λ,是有限的。

假设通过一定时间的观察,我们知道某个路口每小时平均有8辆车通过,这是一个典型的泊松分布实例,我们通过Python进行统计模拟来看看在统计图它具体是如何呈现的。

下面用python中的matplotlib模拟二项分布:

# 用plt模拟泊松分布  
lamb = 8  
sample = np.random.poisson(lamb, size=10000)  
bins = np.arange(20)  
plt.hist(sample, bins=bins, align='left',density=True, rwidth=0.5)  
plt.title('Possion PMF (lambda=8)')  
plt.xlabel('number of appear')  
plt.ylabel('probability')  
plt.show()

用python重温统计学基础:离散型概率分布

本文完。

朱小五,某互联网公司数据分析师,热衷于爬虫,数据分析,可视化,个人公众号《凹凸玩数据》

本文相关ipynb格式代码已上传github:

https://github.com/zpw1995/aotodata/tree/master/tongji/lisan


用python重温统计学基础:离散型概率分布

历史文章:

44万条数据揭秘:如何成为网易云音乐评论区的网红段子手?

破解大众点评的字体加密,这一篇就够了。

用Python爬取b站弹幕,看大家还会接受《爱情公寓5》吗?

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/kRjEsvarsEALiQkUyIdpYw,可扫描二维码进行关注: 用python重温统计学基础:离散型概率分布 如有侵权,请联系删除。

收藏
评论区

相关推荐

python中的异常处理
异常 异常就是程序运行时发生错误的信号,在python中,错误触发的异常如下 异常种类   在python中不同的异常可以用不同的类型(python
2. 无门槛学会数据类型与输入、输出函数,滚雪球学 Python
学习一门语言应该是一件充满乐趣的事情,为什么要把它变难呢? 二、Python 基本数据类型与输入、输出函数 2.1 基本数据类型 对于任何一门语言都存在一些基本类型,Python 也不例外,只不过数据类型在 Python 中要远远比其他语言简单,基本分为以下几种。 1. 数值数据类型,常见的是整数和浮点数 2. 布尔值数据类型,就是常说的真和假
用python重温统计学基础:离散型概率分布
简单介绍数据的分布形态描述中的离散型概率分布 利用python中的matplotlib来模拟几种分布的图形 在上一篇描述性统计(http://mp.weixin.qq.com/s?__bizMzg5NDE3Nzc5Mw&mid2247483743&idx1&sn8a0bff6f07d2c1804ccf301b400a263e&
python利用matplotlib进行可视化
利用matplotlib进行可视化1、Matplotlib 基本介绍
python数据分析与可视化——利用Seaborn进行绘图
利用Seaborn进行绘图下面例子中所用数据下载地址——Matplotlib绘图基本模仿MATLAB绘图库,其绘图风格和MATLAB类似。由于MATLAB绘图风格偏古典,因此,Python开源社区开发了Seabo
Kubernetes部署高可用PostgreSQL集群
PostgreSQL 是一个功能强大的开源关系数据库,它使用和扩展了 SQL 语言,并结合了许多安全存储和扩展最复杂数据工作负载的功能。PostgreSQL 的起源可以追溯到 1986 年,作为加利福尼亚大学伯克利分校 POSTGRES 项目的一部分,与 Linux 内核相似,PostgreSQL 是由社区驱动的开源项目,由全世界贡献者所维护。Postgre
商业数据分析从入门到入职(8)Python模块、文件IO和面向对象
前言本文先介绍了Python中程序、模块和包的基本使用,并在此基础上介绍了Python标准库。然后详细介绍了Python中的文件IO操作,包括文本文件、二进制文件的读写和其他IO操作。最后介绍了面向对象,包括类的定义、继承的使用、鸭子类型和魔法方法。 一、程序、模块和包 1.自定义模块和包之前我们使用的.ipynb文件都不是纯Python文件,
软件设计模式概述
01 软件设计模式概述 01 软件设计模式概述 软件设计模式的产生背景 "设计模式"这个术语最初并不是出现在软件设计中,而是被用于建筑领域的设计中。 1977 年,美国著名建筑大师、加利福尼亚大学伯克利分校环境结构中心
Jupyter Notebook最强指南,没有之一
(文末有福利) Python语言是一种强大而简洁的编程语言。据IEEE Spectrum消息,Python在2020年继续蝉联最受欢迎的编程语言第一名。对于刚接触Python的新手来说,配置一个容易上手又适合自己的开发环境无疑是成功掌握这门编程语言的第一步。对于Python IDE的比较和推荐,各路高手也说法不同,其中被推荐频率最高的当属Pycharm、V
PostgreSQL简史
现在被称为PostgreSQL的对象关系型数据库管理系统是从加州大学伯克利分校写的POSTGRES软件包发展而来的。经过二十多年的发展,PostgreSQL是世界上可以获得的最先进的开源数据库。 2.1. 伯克利的POSTGRES项目由Michael Stonebraker教授领导的POSTGRES项目是由防务高级研究项目局(DARPA)、陆军研究办公室(A
Python初学者必备书籍《Python入门经典》高清PDF版|百度网盘免费下载|Python初学者,自学Python必读
提取码:1028以及前文提到的学习路线图内容简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python可以用于很多的领域,从科学计算到游戏开发。《Python入门经典》是面向Python初学者的学习指南,详细介绍了Python编程基础,以及一些高级概念,如面向对象编程。全书分为24章。第1章介绍了Python的背景和安装方法。第2章
用python重温统计学基础:离散型概率分布
简单介绍数据的分布形态描述中的离散型概率分布 利用python中的matplotlib来模拟几种分布的图形 在上一篇中提到数据分析的对象主要是结构化化数据,而所有的结构化数据可以从三个维度进行描述,即数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述,并对前两个维度进行了介绍。 本篇主要是对数据的分布形态描述中的离散型概率分布进行介绍。
小白学习python该往哪方面走小白必看
整理了Python的7大就业方向,希望大家能找到适合自己的,然后学习下去,完成人生的目标。1、Web开发(Python后端)Python有很多优秀的Web开发框架,如Flask、Django、Bootstar等,可以帮助你快速搭建一个网站。当需要一个新功能时,用Python只需添加几行代码即可,这受到了很多初创型公司的一致欢迎。像知乎、豆瓣、小米这样的大厂,
简述Python中常见的数据结构
「数仓宝贝库」,带你学数据!导读:Python中常见的数据结构有列表(list)、元组(tuple)、集合(set)、字典(dict)等,这些数据结构表示了自身在Python中的存在形式,在Python中可以输入type(对象)查看数据类型。 1列表 (1)创建列表 列表是Python内置的一种数据类型,它是一种有序的数据集合,是用于存储一连串
Python基础1——变量、判断、循环、字符串、列表
1 认识python 1.1 认识python计算机识别机器语言,机器语言由二进制0和1组成计算机要执行高级语言,转换方式 1. 编译 : C语言、C++、java。 一次性编译成可执行文件2. 解释 : 一行一行地解释python是解释型语言python解释器、pycharm编辑器举个例子:要给工地煮饭编译:把饭菜都做好,做成盒饭(.exe,.class