Python之迭代器的几个高级用法
首先是跳过开始部分,这个在我们读取文本的时候最常用。在实际的应用当中,比如记录的日志或者是代码等等,一般来说头部都会附上一段说明,或者用注释标注或者是用特殊的符号标记。这些信息是给用到数据的程序员看的,当我们通过代码获取数据的时候,显然是希望可以过滤掉这些信息的。
比如我们有一段数据,它的开头用#做了一些注释:
#Thisisadataforstudent
#Rows100
xiaoming,17,99;
xiaoli,18,98;
...
常规操作当中,我们会创建一个打开文件的迭代器,我们通过遍历这个迭代器去获取文件当中的数据:
withopen('xxxx.txt')asf:
forlineinf:
print(line)
如果只是用来输出还好,如果我们需要加工文件当中的数据,那么头部的注释信息就会干扰我们代码的运行。我们当然可以手动加入一些判断,但是这会比较麻烦,代码也不够美观。针对这个问题,一个比较好的解决方案是dropwhile。
dropwhile是itemtools当中的一个函数,它可以接收一个我们自定义的过滤函数和迭代器重新生成一个新的迭代器,这个新的迭代器当中会过滤掉之前迭代器头部不符合我们要求的数据:
在刚才的例子当中我们想要过滤掉头部加了#注释的部分,我们可以这么操作:
fromitertoolsimportdropwhile
withopen('xxxx.txt')asf:
forlineindropwhile(lambdaline:line.startswith('#'),f):
print(line)
这样出来的结果就没有头部我们不需要的内容了。
当我们知道头部不符合情况的数据的格式的时候,可以使用dropwhile来规定过滤的格式。如果我们知道需要过滤的条数,则可以使用另外一个工具,叫做islice,它的本质是一个切片函数,就像是Python当中数组的切片功能一样,可以切出迭代器当中指定片段的数据。
举个例子:
fromitertoolsimportdropwhile
withopen('xxxx.txt')asf:
forlineinislice(f,3,None):
print(line)
这样我们就会从第三行开始获取,之前的数据会被过滤掉。它其实就代表着数组当中[3:]的切片操作。
迭代排列组合我们都知道在C++当中有一个叫做next_permutation的函数,可以传入一个数组,返回下一个字典序的排列。在Python当中也有同样的功能,但是是以迭代器的形式使用的。
举个简单的例子,比如我们有a,b,c三个元素,我们希望求出它的所有排列:
items=['a','b','c']
fromitertoolsimportpermutations
forpinpermutations(items):
print(p)
permutations还支持多传一个参数,比如上述的排列当中我们希望只保留前两个元素,除了切片之外,我们只需要多传一个参数就好了,likethis:
forpinpermutations(items,2):
print(p)
除了排列之外,itertools当中还支持组合,用法还是一样,只是把函数名称换成是combinations而已:
fromitertoolsimportcombindations
forcincombinations(items):
print(c)
在一般的组合当中,一个元素一旦被选中那么它接下来就会从候选集当中移除,再也不会被选中。如果我们希望获得有放回的组合,我们可以再换一个函数,这个函数名称有点长,但是名字倒也直观叫做combinations_with_replacement。但既然是有放回的抽样,我们需要设定元素的数量,否则抽样可以无限进行下去。
forcincombinations_with_replacement(items,3):
print(c)
迭代合并后的序列上一篇文章当中我们介绍了zip可以同时迭代多个迭代器,除此之外还有一种情况是我们需要把多个迭代器串起来迭代。比如系统的日志打在了多个文件当中,我们希望找出其中有error的日志来分析。这个时候,我们希望的不是同时读取多个迭代器,而是希望能够有办法将多个迭代器的内容串联起来。这个功能就是itertools当中的chain方法,它接受多个迭代器,当我们遍历的时候,会自动将多个迭代器的内容串联起来,我们可以无缝迭代。
举个例子:
fromitertoolsimportchain
nums=[1,2,3]
chars=['a','b','c']
foriinchain(nums,chars):
print(i)
这样我们会把nums和chars当中的内容一起输出出来,就好像从头到尾只执行了一个迭代器一样。
你可能会说我们不用chain也可以实现啊,我们可以这样:
foriinnums+chars:
print(i)
的确,从结果上来看这样也是行得通的。但是如果我们分析一下内部执行的时候的中间变量,会发现当我们执行nums+chars的时候,实际上是先创建了一个新的临时list。然后在这个list当中存储nums和chars的数据,也就是说我们迭代的其实是这个新的list。这带来的结果是我们额外开辟了一段内存,并且花费了一些时间。如果我们使用chain,它并不会有这样的中间变量,完全是通过迭代器来执行的迭代,非常节省内存,这也是chain的优点。
归并迭代的内容对于归并操作我们应该都不陌生,在之前的归并排序以及一些题解的文章当中我们见过很多次。同样,我们在使用工具合并多个迭代器内容的时候,如果迭代器当中的内容有序,我们也可以对多个迭代器当中的元素进行归并,而不再需要我们自己手动操作。
使用我们之前介绍的heapq的库可以非常轻松地做到这一点,我们一起来看一个例子:
a=[1,3,5]
b=[2,4,6]
importheapq
forcinheapq.merge(a,b):
print(c)
执行之后,我们会得到[1,2,3,4,5,6]的结果。也就是说通过heapq.merge操作,我们把多个有序的迭代器合并到了一起。当然我们也可以自己合并,但如果我们只是需要利用当中的数据的话,使用merge操作可以节省内存空间。
以上内容为大家介绍了Python之迭代器的几个高级用法,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注IT培训机构:千锋教育。
猜你喜欢LIKE
相关推荐HOT
更多>>python中的filter函数功能是什么?
python中的filter函数功能是什么?在python中,面对众多的数据,我们要过滤筛选出我们需要的数据。python中的filter函数就是起到了过滤筛选的作...详情>>
2023-11-10 20:37:27pythontime模块是什么
pythontime模块是什么在python中使用时间,就免不了和time模块打交道,另外两个模块这个暂时先不做介绍。做time模块的使用上,我们可以用它来对...详情>>
2023-11-10 15:53:16python是什么编程语言
python是什么编程语言1、说明是一种面向对象、解释型计算机程序设计语言,由GuidovanRossum于1989年底发明,第一个公开发行版发行于1991年。Pyt...详情>>
2023-11-10 15:21:05python异常处理的两种技巧
python异常处理的两种技巧1、传递异常有时我们会在捕捉到一个异常后重新引发它(传递异常),实现起来很简单,使用不带参数的raise语句即可。deff...详情>>
2023-11-10 14:49:39热门推荐
python中的filter函数功能是什么?
沸python delattr函数如何使用?
热python中pdb模块怎么用?
热Python如何截图保存?
新python中缺少module怎么办?
python strftime和strptime的不同分析
python time.strptime的格式化
python中@contextmanager是什么?
python对象的三要素是什么
pythonGIL在Python多线程的应用
python如何对多个CSV文件进行读取
pythonif嵌套命令如何理解?
python对列表进行永久性或临时排序的方法
python生成器调用方法引发异常