lxml简明教程

Wesley13
• 阅读 498

from:https://www.cnblogs.com/ospider/p/5911339.html

最近要做下微信爬虫,之前写个小东西都是直接用正则提取数据就算了,如果需要更稳定的提取数据,还是使用 xpath 定位元素比较可靠。周末没事,从爬虫的角度研究了一下 python xml 相关的库。

Python 标准库中自带了 xml 模块,但是性能不够好,而且缺乏一些人性化的 API,相比之下,第三方库 lxml 是用 Cython 实现的,而且增加了很多实用的功能,可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在 lxml.etree中,所以下文都假定已经执行了

from lxml import etree

解析 XML 字符串

网页下载下来以后是个字符串的形式,使用etree.fromstring(str)构造一个 etree._ElementTree对象,使用 etree.tostring(t)返回一个字符串

>>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>' >>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好传 byte string >>> etree.tostring(root) # 默认返回的是 byte string b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>' >>> print(etree.tostring(root, pretty_print=True).decode('utf-8')) #decode 一下变成 unicode <root> <foo id="foo-id" class="foo zoo">Foo</foo> <bar>Bar</bar> <baz/> # 注意这里没有子节点的 baz 节点被变成了自闭和的标签 </root> >>> type(root) <class 'lxml.etree._Element'> # 可以看出 tostring 返回的是一个_Element类型的对象,也就是整个 xml 树的根节点

Element结构

etree._Element 是一个设计很精妙的结构,可以把他当做一个对象访问当前节点自身的文本节点,可以把他当做一个数组,元素就是他的子节点,可以把它当做一个字典,从而遍历他的属性

>>> root.text
'root content' # 注意只是 root 自身的文本,并不包含子节点的文本
>>> root.tag
'root' >>> root[0].tag 'foo' >>> foo = root[0] >>> for attr, val in foo.items(): ... print(attr, val) ... id foo-id class foo zoo >>> foo.get('id') 'foo-id' >>> foo.attrib {'class': 'foo zoo', 'id': 'foo-id'}

Element 和 ElementTree

xml 是一个树形结构,lxml 使用etree._Element和 etree._ElementTree来分别代表树中的节点和树,etree.ELement和 etree.ElementTree 分别是两个工厂函数

>>> t = root.getroottree()
# 获得一个节点对应的树
<lxml.etree._ElementTree object at 0x107295308>

>>> t.getroot() == root
# 使用getroot 返回一个树的根节点 True >>> foo_tree = etree.ElementTree(root) # 也可以从一个节点构造一个树,那么这个节点就是这棵树的根 >>> foo_tree.getroot().tag 'foo' >>> foo.getroottree().tag 'root' #注意,foo 这个节点的 roottree 仍然是以 root 节点为根的

其他方法如getparent()/getprevious()/getnext()都是显而易见的,不赘述了

XPath

XPath 实在太强大了,在定位元素方面绝对是秒杀 CSS 选择器。在 lxml 中,_Element和 _ElementTree 分别具有xpath 函数,两者的区别在于:

如果是相对路径,_Element.xpath是以当前节点为参考的,_ElementTree.xpath以根为参考
如果是绝对路径,_ElementTree.xpath是以当前节点的getroottree的根节点为参考的

还有,如果 xpaht 表达式应该返回元素的话,总是返回一个数组,即使只有一个元素

>>> foo.xpath('/root')[0].tag
'root'
>>> foo.xpath('.')[0].tag 'foo' >>> >>> t.xpath('/root')[0].tag 'root' >>> t.xpath('.')[0].tag 'root' >>>

lxml 还支持几个函数 find/findall,他们使用 ElementPath,是一种类似 xpath 的语言,感觉很是奇怪,lxml 的文档描述他是 xpath 的一个子集,暂时不看了。

HTML

最后再来讨论一下 HTML,以上的讨论都是基于 xml 的,HTML 和 xml 还是有些许不同的,lxml 也有一个专门的 html 模块。
比如我们解析 html 的话最好使用html.fromstring(),返回的是lxml.html.HtmlElement,具有上述的所有能力,同时能够更好地兼容 html。

>>> etree.fromstring('<meta charset=utf-8 />')
# 比如这句就会报错,因为属性值没有用引号括起来
Traceback (most recent call last):
  File "<stdin>", line 1, in <module> File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737) File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674) File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220) File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345) File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584) File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238) File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147) lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15 >>> html.fromstring('<meta charset=utf-8>') # 没有问题

html.HtmlElement同时多了几项功能

>>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>')

>>> doc.text_content()
'lorem poium'
点赞
收藏
评论区
推荐文章
Jacquelyn38 Jacquelyn38
1年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
blmius blmius
1年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Karen110 Karen110
1年前
​一篇文章总结一下Python库中关于时间的常见操作
前言本次来总结一下关于Python时间的相关操作,有一个有趣的问题。如果你的业务用不到时间相关的操作,你的业务基本上会一直用不到。但是如果你的业务一旦用到了时间操作,你就会发现,淦,到处都是时间操作。。。所以思来想去,还是总结一下吧,本次会采用类型注解方式。time包importtime时间戳从1970年1月1日00:00:00标准时区诞生到现在
Easter79 Easter79
1年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
Wesley13 Wesley13
1年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Stella981 Stella981
1年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
1年前
MySQL查询按照指定规则排序
1.按照指定(单个)字段排序selectfromtable_nameorderiddesc;2.按照指定(多个)字段排序selectfromtable_nameorderiddesc,statusdesc;3.按照指定字段和规则排序selec
Stella981 Stella981
1年前
Angular material mat
IconIconNamematiconcode_add\_comment_addcommenticon<maticonadd\_comment</maticon_attach\_file_attachfileicon<maticonattach\_file</maticon_attach\
Wesley13 Wesley13
1年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
helloworld_34035044 helloworld_34035044
7个月前
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为