admin 管理员组文章数量: 1184232
文章目录
- 一、RPA(机器人流程自动化)简介
- 二、所需要的工具
- 三、获取XPath的方法:
- 四、RPA获取数据
一、RPA(机器人流程自动化)简介
RPA机器人的工作方式,是通过录制、配置脚本或利用AI能力,来模拟人类与软件应用程序的交互。它能“看到”屏幕上的内容,能“点击”按钮,能“录入”数据,能“复制粘贴”信息,就像一个真正的人在操作一样。 RPA旨在赋能而非取代,通过低成本、高效率的自动化,将员工从“数字苦力”中解放,投身更高价值的工作。它不仅是效率工具,更是企业优化运营、加速数字化转型的战略支点。
其交互的层次主要分为三种:
- 屏幕抓取:识别并提取用户界面上的数据。
- 触发器驱动:监听特定事件,如收到一封特定格式的邮件、某个文件被创建等,然后触发自动化流程。
- 插件与API集成:对于某些主流软件,RPA平台提供了更底层的连接方式,以提高稳定性和效率。
二、所需要的工具
所需要用到的工具是PyCharm,需要安装教程可以点击下方链接进行安装
链接: link
三、获取XPath的方法:
1. 打开开发者工具: 按住F12或者Fn+F12(笔记本电脑键盘可能需要用到这个按键)或者在百度网页单击鼠标右键,点击检查。
2.打开元素选取模式: 点击下图中左上角带箭头的按键,将其点亮
点亮之后的效果:
3.复制XPath:
- 获取单个元素XPath:点亮之后将鼠标移动到要复制元素处,比如复制context1的XPath,操作为热搜下“以开放汇合作之力”文字处,点击该文字。
此时在开发者工具中会将点击的元素的网页代码显示为蓝色,再将鼠标移动至显示为蓝色的网页代码处,单击鼠标右键,点击Copy(复制)、点击Copy XPath(复制XPath)。再将复制的XPath放入到代码中即可。
- 获取多个元素XPath: 下载XPath Helper可以看一下其他播客分享的资料:
链接:link在XPath Helper插件中可以更加方便我们获取多个元素的XPath。
四、RPA获取数据
- 第一步 导入PRA模块: 下载自动化模块资源,按住Win+R,输入cmd,在控制面板中输入模块资源下载指令:
pip install DrissionPage -i https://mirrors.aliyun/pypi/simple/
- 第二步 代码书写:
# 导入DrissionPage库中的Chromium模块
# DrissionPage是一个基于Python的网页自动化测试工具
# Chromium模块用于控制基于Chromium内核的浏览器(如Chrome、Edge等)
from DrissionPage import Chromium
# 对谷歌浏览器进行初始化
page = Chromium()
# 获取标签页对象
tab = page.get_tab()
# 直接通过get方法访问网页,timeout设置超时时间
tab.get("https://www.baidu", timeout=10)
# 通过XPath定位到热搜榜第一个热搜词的文本内容
# 使用tab对象的ele方法获取单个元素
context1 = tab.ele('xpath://*[@id="hotsearch-content-wrapper"]/li[1]/a/span[2]')
# 打印第一个热搜词的文本内容
# .text:输出获得的xpath的tab网页路径的内容
print(context1.text)
# 打印30个"-"作为分隔线
print("-"*30)
# 通过XPath定位到热搜榜所有热搜词的文本内容
# 使用tab对象的eles方法获取多个元素
context2 = tab.eles('xpath://*[@id="hotsearch-content-wrapper"]/li/a/span[2]')
# eles方法获取的多个元素的xpath是以列表的形式赋值给context2
# 需要用循环语句顺序输出所获得的xpath的tab网页路径
for i in context2:
# .text:输出获得的xpath的tab网页路径的内容
print(i.text)
版权声明:本文标题:RPA自动化实战:从XPath定位到网页数据抓取完整指南 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1765842865a3419514.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论