Python进阶系列:Python遍历的秘密

Stella981
• 阅读 594

Python进阶系列:Python遍历的秘密

 前言 

可迭代对象,迭代器,生成器,相信许多学习Python的小伙伴或多或少都听说过,但你真的知道他们的区别吗?真的知道为什么需要这些概念吗?

本文带你深入了解一系列相关机制,不仅告诉你概念,还告诉你为什么需要这些概念,让你可以举一反三。

本文重点

  • - Python在for遍历时做了什么?
  • - 为什么需要迭代器?
  • - 生成器为什么不能重复使用?
  • - Python的动态协议,不一样的迭代实现。

本文字数2000+,不适合初学者,阅读本文需要你有以下Python基础知识:

  • - 认识列表(list)
  • - for循环等基本语法。
  • - 自定义类型,方法。

Python进阶系列:Python遍历的秘密

 for循环没有你想象中的那么简单 

能够看到这里的小伙伴必定已经很熟悉for循环,但你可能不知道Python在背后为你做了许多事情。

用一个简单例子来说明一下,当前有一个列表,里面装着4个数字,我们需要把数字逐一打印出来。

如下图,分别用两种方式实现:

Python进阶系列:Python遍历的秘密

  • - 行5-行7,第一种方式,通过索引访问列表
  • - 行10-行11,直接通过for遍历。
  • - 大家有想过吗?为什么第二种方法,不需要一个变量 i 来记录当前读取位置呢。

答案是,不管什么方式,其实都需要在遍历过程保持一个状态值,以表示现在遍历到哪个元素。

但是为什么我们平时使用的for循环却不需要呢?

因为Python在for循环之前静悄悄地做了以下事情:

  • - 行10,这里是遍历的开始。但别以为 Python 是直接向 nums 拿数值。
  • - 在遍历开始之前,Python 会先问 nums 拿一个叫迭代器的东西。
  • - 然后每次都问这个迭代器拿数值,然后把数值赋给变量 n 。

我们来看看示意图:

Python进阶系列:Python遍历的秘密

  • - Python 通过 iter(nums) 拿到一个迭代器,然后才开始遍历。
  • - 第一次遍历时,会问迭代器拿一个元素,然后把元素赋值给变量 n 。
  • - 整个过程,iter 执行了一次,next 执行了4次。 
  • - 之前说的状态值 i ,其实就保存在迭代器中。
  • - 以上的步骤从代码上是看不到的。

可以看到,迭代器就是为了保存遍历状态而设定的。

Python进阶系列:Python遍历的秘密

 迭代器的由来 

你可能会疑惑,为什么多此一举,非要弄一个所谓的迭代器出来?

可以把状态值 i ,保存在列表对象中啊。

答案是,因为在嵌套for遍历的时候,需要两个for的状态值 i 是独立分开的。

看下图:

Python进阶系列:Python遍历的秘密

  • - 如果状态值 i 直接保存在列表对象中,那么这里的嵌套遍历就乱套了。
  • - 可见,这里 Python 会为我们创建了2个独立的迭代器,独立维护了2个状态值 i 。

上面例子中,列表 nums 称为"可迭代对象"

说白了,迭代器就是用于维护一个遍历过程中的状态数据。

Python进阶系列:Python遍历的秘密

 不是任何对象都有迭代器的 

以上就是迭代器的由来,但似乎目前为止我们都没看到迭代器是个啥样。

通过下图的代码,来看看迭代器吧:

Python进阶系列:Python遍历的秘密

  • - 行22,通过 iter 方法从列表 nums 中获取一个迭代器。
  • - 行26,通过 next 方法从迭代器 tor 中获取一个值。
  • - 行24-行29,就是整个遍历的过程。
  • - 行28,当列表中的值都被取出来后,在行26 中再次问 tor 获取值的时候,就会出现 StopIteration 的错误。

重点归纳一下:

  • - 如果一个类正确实现了 `__iter__` 方法,那么这个对象叫"可迭代对象"
  • - 可以通过 iter 方法从可迭代对象身上获取一个迭代器。
  • - 迭代器是一个正确实现 `__next__` 方法的对象。
  • - 迭代器的状态是无法重置,只能向前。一旦遍历完毕,则无法再次使用。
  • - 例子中, nums 列表是一个可迭代对象。

> 题外话:实际上迭代器还正确实现了 `__iter__` 方法,不过这个方法只是简单地返回迭代器自身。

Python进阶系列:Python遍历的秘密

 生成器其实就是一种迭代器 

所谓的生成器,指定的是一种不断生成输出东西的事物,同样地可以通过 next 方法从生成器上获取输出。

是不是与迭代器的概念不谋而合?那又是为什么弄这样的一个概念出来?

Python进阶系列:Python遍历的秘密

生成器的特点

  • - 生成器的数据来源与迭代器不一样。
  • - 行48-行51,生成器的来源不一定是可迭代对象,他可以是一个不断输出值的函数。
  • - 行45,因此,生成器有着迭代器一样的性质。不能重复使用。

Python进阶系列:Python遍历的秘密

 真的需要 `__iter__` 才是可迭代对象吗? 

Python中的协议不像Java或C#这么严格,当一个对象实现了 `__getitem__` 方法,并且可以从0索引开始访问元素时,同样也可以迭代他。

如下:

Python进阶系列:Python遍历的秘密

  • - 行62,实现了 `__getitem__` 方法,就是让这个对象可以通过诸如 mn[0] 这样的方式去获取元素。
  • - Python 在 for 循环时,发现 MyNums 虽然没实现 `__iter__` 方法,但有 `__getitem__` 方法,那么自然可以通过维护一个状态索引值 i ,不断调用 `__getitem__` 方法实现遍历的效果。

Python进阶系列:Python遍历的秘密

 小结 

  • - 我们平时经常使用的列表,元组,字典等集合,他们都是可迭代对象。
  • - 遍历可迭代对象时,实际是从可迭代对象获取一个迭代器进行的。
  • - 迭代器在 Python 中被定义为"只读向前",一旦使用完毕,则不能再次使用。
  • - 生成器就是一种迭代器,因此拥有迭代器同样的性质与限制。
  • - 当自定义类型需要可迭代时,实现 `__iter__` 方法。
  • - 如果没有实现 `__iter__` 方法,那么实现 `__getitem__` 方法也是可以支持迭代。

扫描二维码

获取更多精彩

数据大宇宙

Python进阶系列:Python遍历的秘密

本文分享自微信公众号 - 数据大宇宙(data2fun)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Stella981 Stella981
2年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这