Python爬虫Xpath定位数据的两种方法

Brigitte ·

更新时间:2024-09-20

· 278 次阅读

方法一：直接右键，将文章路径复制下来点击Copy full Xpath

使用selenium+lxml中的etree进行配合使用，使用etree解析html网页

import requests
from lxml import etree
import time
import socket
import csv
from selenium import webdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
#禁止图片和css加载
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 如果想加载图片，就把下面第二句话改第一句话，删掉上面的“禁止图片和css加载”部分
# wb = Chrome(options=option)
wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成（防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒，加载好了就立刻结束等待）
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)

然后获取网页数据，这里表明哪怕后面出错了，仍然可以延续wb的位置继续控制浏览器

data = wb.page_source
time.sleep(3)
data = wb.page_source
time.sleep(3)
page_all.append(data)
html = etree.HTML(data)
company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company )

方法二：使用@制定标签属性，搜索指定位置

这样的好处就是，对于批量处理的网页，有的标签位置不在同一个地方，那么我们就是不使用全Xpath路径，而使用相对路径，用@制定某种属性的标签，下载相关数据

"//div[@class='mainArea']/ul/li"

使用//div[@class=‘mainArea’]的意思是：从根部（//）查找 class值为 mainArea的Node.

所以，那么就很简单了 //某元素[@class=‘CLASS值’]

大家可以按照这个公式来查找 class的元素了。

剩下的 /ul/li 表示的是，继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。

到此这篇关于Python爬虫Xpath定位数据的方法的文章就介绍到这了,更多相关Python爬虫Xpath定位数据内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

方法数据 XPath Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

HTML 字符集

Kamiisa 2020-04-27

703

Bootstrap 下拉菜单（Dropdown）插件

Ros 2020-09-10

662

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

Laravel 中使用简单的方法跟踪用户是否在线(推荐)

Serwa 2020-03-20

874

阿里云服务IIS搭建Web网站外网无法访问的解决方法

Elina 2023-08-08

897

ssh报错nokeyalg的解决方法(关于低版本连接高版本ssh)

Jacinthe 2023-08-08

339

在没有Docker缓存的情况下构建镜像的方法分享

Viridis 2023-08-08

1779

docker-compose中启动镜像失败的几种解决方法

Hana 2023-08-08

725

Windows服务器默认IE浏览器无法下载文件的解决方法

Cybill 2023-08-08

1355

Windows服务器长时间保持远程桌面不被自动断开的方法

Elsa 2023-08-08

1249

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

pytorch SummaryWriter保存日志的方法

Tanisha 2023-08-28

1486

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座