python – 使用lxml.html提取文本
发布时间:2020-11-18 08:52:08 所属栏目:Python 来源:互联网
导读:我有一个 HTML文件: html psomestr sup1/sup anotherstr /p/html 我想将文本提取为: somestr1anotherstr 但我无法弄清楚该怎么做.我写了一个to_sup()函数,它将数字字符串转换为上标,所以我得到的最接近的是: for i in doc.xpath(.//p/
我有一个 HTML文件: <html> <p>somestr <sup>1</sup> anotherstr </p> </html> 我想将文本提取为: 但我无法弄清楚该怎么做.我写了一个to_sup()函数,它将数字字符串转换为上标,所以我得到的最接近的是: for i in doc.xpath('.//p/text()|.//sup/text()'): if i.tag == 'sup': print to_sup(i),else: print i, 但我的ElementStringResult似乎没有一个方法来获取标签名称,所以我有点迷失.任何想法如何解决? 解决方法只是不要在XPath中的sup节点上调用text().for x in doc.xpath("//p/text()|//sup"): try: print(to_sup(x.text)) except AttributeError: print(x) (编辑:阜阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- python-怎样使用 requests 模块发送http请求!
- Python 版的 try-with-resources——with 上下文管理器!
- 安装带 Python 支持的 uWSGI
- python-2.7 – 无法安装PythonMagick Windows 7
- python – 将密码字段迁移到Django
- Python:如何找到使用matplotlib绘制的图形的斜率?
- python学习笔记十:异常
- 在Django中,如何在模板中以小写的am / pm显示时间?
- 使用dbf Python模块以只读方式打开.DBF文件
- python – 找不到manage.py collectstatic命令,Django 1.5.
推荐文章
站长推荐
热点阅读